I have an arabic text file that looks like this
اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل. افضل من قلب راشد ليش اتعب دار
I want to generate a list of sentences from this paragraph using python, if each sentence is separated by a dot.
I found this answer: Tokenizing non English Text in Python
It is splitting text into words but not into sentences.
I also tried this
from nltk.tokenize import sent_tokenize, word_tokenize
import regex
text = "اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل. افضل من قلب راشد ليش اتعب"
regex.findall(r'\p{L}+', text.replace('[\u200c]', ''))
print(sent_tokenize(data))
It returned the text separated by '\u202a'
زيز 240 و انا بدرب منال تاريخ\u202a.\u202c برقاء
NB: The sentence doesn't make any sense, it is just an example in arabic characters.
I need the output to be in the form of sentences:
[اغاني و اغانياخلاق تربطنا ساخنه , بن الخطاب حريم منتدى نضال و امراه , انا نحن, احبابك رامي مرض , النقرس ماذا]
which means:
[sentence 1, sentence 2, sentence, 3]