Having a csv document with German characters in a Datalake enviroment. So we have to use spark read.
i.e German_characters.csv
"German_Text"
Die 1949 gegründete Bundesrepublik Deutschland stellt die jüngste Ausprägung des 1871 erstmals begründeten.
Why is the encoding utf-8 its not working but iso8859-1 does ?
input_df = (spark.read
.option("sep", sep)
.option("header", "true")
.option("encoding", "iso8859-1")
.csv(path)
)
Changing encoding iso for utf-8 or not encoding at all
.option("encoding", "UTF-8")
I m having that results
no_encodes
Die 1949 gegr�ndete Bundesrepublik Deutschland stellt die j�ngste Auspr�gung des 1871 erstmals begr�ndeten
utf-8
Die 1949 gegr�ndete Bundesrepublik Deutschland stellt die j�ngste Auspr�gung des 1871 erstmals begr�ndeten
iso8859
Die 1949 gegründete Bundesrepublik Deutschland stellt die jüngste Ausprägung des 1871 erstmals begründeten
I'm trying to find out why but I can't find it.