I haved scraped data from Wikipedia and created a dataframe. df[0] contains
\n \n == Sifat-sifat DNA == \n DNA merupakan sebuah polimer yang terdiri dari satuan-satuan berulang yang disebut nukleotida. Tiap-tiap nukleotida terdiri dari tiga komponen utama, yakni gugus fungsionalgugus fosfat, gula deoksiribosa, dan basa nitrogen (nukleobasa) < ref > {{en}}{{cite web \n url = http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=mboc4 & part=A2 \n title = All Cells Replicate Their Hereditary Information by Templated Polymerization \n accessdate = 2010-03-19 \n work = Bruce Alberts, et al. \n }} < /ref > . Pada DNA, nukleobasa yang ditemukan adalah Adenina (A), Guanina (G), Sitosina (C) dan Timina (T).
I want to remove:
< ref > {{en}}{{cite web \n url = http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=mboc4 & part=A2 \n title = All Cells Replicate Their Hereditary Information by Templated Polymerization \n accessdate = 2010-03-19 \n work = Bruce Alberts, et al. \n }} < /ref >
I need a way to do a replace(or just delete) and text in between "< ref >" and " < /ref >" so that when I call it, df[0] now equals:
\n \n == Sifat-sifat DNA == \n DNA merupakan sebuah polimer yang terdiri dari satuan-satuan berulang yang disebut nukleotida. Tiap-tiap nukleotida terdiri dari tiga komponen utama, yakni gugus fungsionalgugus fosfat, gula deoksiribosa, dan basa nitrogen (nukleobasa). Pada DNA, nukleobasa yang ditemukan adalah Adenina (A), Guanina (G), Sitosina (C) dan Timina (T).
I have tried:
df['Body'] = df['Body'].str.replace('< ref >.*?< /ref >','',regex=True)
df['Body'] = df['Body'].str.replace('< ref >.*< \/ref >','',regex=True)
but the output is still not change, like this
\n \n == Sifat-sifat DNA == \n DNA merupakan sebuah polimer yang terdiri dari satuan-satuan berulang yang disebut nukleotida. Tiap-tiap nukleotida terdiri dari tiga komponen utama, yakni gugus fungsionalgugus fosfat, gula deoksiribosa, dan basa nitrogen (nukleobasa) < ref > {{en}}{{cite web \n url = http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=mboc4 & part=A2 \n title = All Cells Replicate Their Hereditary Information by Templated Polymerization \n accessdate = 2010-03-19 \n work = Bruce Alberts, et al. \n }} < /ref > . Pada DNA, nukleobasa yang ditemukan adalah Adenina (A), Guanina (G), Sitosina (C) dan Timina (T).
Whereas I need is like I explained before. I can't find any wildcards that seem to work. Any help is much appreciated.