I am trying to remove duplicate word / phrases from string.
For example if I have below string
"normalement on on on va, on va diviser, générique générique générique l'explication, générique l'explication détaille, détaille"
I wanted to remove duplicate phrase "on va" after , and "générique l'explication" after , in above string, also duplicate consecutive single word "on" and "générique". Tried below two approach but seems it is working on single word when it will be without any punctuation
>>> import re
>>> s = "normalement on on on va, on va diviser, générique générique l'explication, générique l'explication détaille, détaille"
>>> re.sub(r'\b(.+)(\s+\1\b)+', r'\1', s)
"normalement on va, on va diviser, générique l'explication, générique l'explication détaille, détaille"
>>> sen="normalement on on on va, on va diviser, générique générique l'explication, générique l'explication détaille, détaille"
>>> re.sub(r"\b([a-zA-z àâäèéêëîïôœùûüÿçÀÂÄÈÉÊËÎÏÔŒÙÛÜŸÇ']+\s *)\1{1,}", '\\1', sen, flags=re.IGNORECASE)
"normalement on va, on va diviser, générique l'explication, générique l'explication détaille, détaille"
Can anyone help me in this and advice how I can remove adjacent duplicate word/phrases appearing with punctuation and without punctuation.