I have issues with nltk recognizing this as one sentence, because of the exclamation mark in the quotation marks.
s = "Donc ce n'est pas non plus de vous dire « Allez absolument ici ! », non."
I tried:
from nltk.tokenize import sent_tokenize
sent_tokenize(s, language='french')
but I get:
["Donc ce n'est pas non plus de vous dire « Allez absolument ici !", '», non.']
I am wondering if there is a better sentence detection method out there ?