I have a file called adrese.csv that contains the first lines from another file called rezultate2.txt. For example:
www.afahc.ro/ro/rcic/simpozion/Simpozion_13/first_call.html
www.anmb.ro/ro/files/bric/mars_bric_2008/corespondente.html
www.anmb.ro/ro/files/bric/mars_bric_2011/corespondente.html
www.anmb.ro/ro/files/bric/mars_bric_2015/corespondente.html
www.anmb.ro/ro/files/bric/mars_bric_2017/corespondente.html
www.anmb.ro/ro/files/erasmus/parteneriate.html
www.anmb.ro/ro/files/studenti/ccoc/1/obiective.html
www.anmb.ro/ro/files/studenti/ccoc/2/servicii.html
www.anmb.ro/ro/files/studenti/ccoc/3/aspecte.html
The file rezultate2.txt contains beside these first lines a batch of text that has the word ”abandon” in it. I need to run grep -E -o ".{0,50}abandon.{0,50}"
on rezultate2.txt for each line starting with the string in adrese.csv and output everything to a file, preferably a CSV. I tried different commands but nothing worked.
Sample rezultate2.txt
2345678abcd www.utm.ro/proiecte-europene/despre-pos-dru/index.html-
www.utm.ro/proiecte-europene/despre-pos-dru/index.html-
www.utm.ro/proiecte-europene/despre-pos-dru/index.html:Axa prioritară 2 finanţează activităţi care urmăresc facilitarea tranziţiei de la şcoală la viaţa activă prin dezvoltarea de programe integrate de orientare şi consiliere în carieră şi prin sprijinirea parteneriatelor între şcoli, universităţi şi întreprinderi; prevenirea şi corectarea fenomenului de părăsire timpurie a şcolii prin programe integrate pentru prevenirea abandonului şcolar, încurajarea participării şcolare şi reintegrarea celor care au părăsit şcoala timpuriu; creşterea accesului şi participării la formare profesională continuă prin diversificarea programelor de formare profesională continuă şi sprijinirea participării angajaţilor la astfel de programe.Axa Prioritară 3 “Creşterea adaptabilităţii lucrătorilor şi a întreprinderilor”
12345678abcd www.utm.ro/posdru141699.1-
www.utm.ro/posdru141699.1: Axa prioritară 2 finanţează activităţi care urmăresc facilitarea tranziţiei de la şcoală la viaţa activă prin dezvoltarea de programe integrate de orientare şi consiliere în carieră şi prin sprijinirea parteneriatelor între şcoli, universităţi şi întreprinderi, prevenirea şi corectarea fenomenului de părăsire timpurie a şcolii prin programe integrate pentru prevenirea abandonului şcolar, încurajarea participării şcolare şi reintegrarea celor care au părăsit şcoala timpuriu, creşterea accesului şi participării la formare profesională continuă prin diversificarea programelor de formare profesională continuă şi sprijinirea participării angajaţilor la astfel de programe. www.utm.ro/posdru141699.1- 12345678abcd www.utm.ro/posdru141699/index.html-
www.utm.ro/posdru141699/index.html: Axa prioritară 2 finanţează activităţi care urmăresc facilitarea tranziţiei de la şcoală la viaţa activă prin dezvoltarea de programe integrate de orientare şi consiliere în carieră şi prin sprijinirea parteneriatelor între şcoli, universităţi şi întreprinderi, prevenirea şi corectarea fenomenului de părăsire timpurie a şcolii prin programe integrate pentru prevenirea abandonului şcolar, încurajarea participării şcolare şi reintegrarea celor care au părăsit şcoala timpuriu, creşterea accesului şi participării la formare profesională continuă prin diversificarea programelor de formare profesională continuă şi sprijinirea participării angajaţilor la astfel de programe. www.utm.ro/posdru141699/index.html- 12345678abcd www.utm.ro/posdru141699/Despre_POSDRU.html-
www.utm.ro/posdru141699/Despre_POSDRU.html: Axa prioritară 2 finanţează activităţi care urmăresc facilitarea tranziţiei de la şcoală la viaţa activă prin dezvoltarea de programe integrate de orientare şi consiliere în carieră şi prin sprijinirea parteneriatelor între şcoli, universităţi şi întreprinderi, prevenirea şi corectarea fenomenului de părăsire timpurie a şcolii prin programe integrate pentru prevenirea abandonului şcolar, încurajarea participării şcolare şi reintegrarea celor care au părăsit şcoala timpuriu, creşterea accesului şi participării la formare profesională continuă prin diversificarea programelor de formare profesională continuă şi sprijinirea participării angajaţilor la astfel de programe. www.utm.ro/posdru141699/Despre_POSDRU.html- 12345678abcd www.utm.ro/en/proiecte-europene/despre-pos-dru/index.html- www.utm.ro/en/proiecte-europene/despre-pos-dru/index.html:Axa prioritară 2 finanţează activităţi care urmăresc facilitarea tranziţiei de la şcoală la viaţa activă prin dezvoltarea de programe integrate de orientare şi consiliere în carieră şi prin sprijinirea parteneriatelor între şcoli, universităţi şi întreprinderi; prevenirea şi corectarea fenomenului de părăsire timpurie a şcolii prin programe integrate pentru prevenirea abandonului şcolar, încurajarea participării şcolare şi reintegrarea celor care au părăsit şcoala timpuriu; creşterea accesului şi participării la formare profesională continuă prin diversificarea programelor de formare profesională continuă şi sprijinirea participării angajaţilor la astfel de programe. www.utm.ro/en/proiecte-europene/despre-pos-dru/index.html-Axa Prioritară 3 “Creşterea adaptabilităţii lucrătorilor şi a întreprinderilor”
Desired output is a file containing the line in adrese.csv and it's corresponding text with just the word "abandon" and the 50 chars to the left and right of it:
www.utgjiu.ro/despre/index.html?p=5400 în timp ce vechi așezări se depopulează și cad în abandon. Nevoia unor sisteme de referință este, poate, ma
Managed to get what I needed with the help of a friend. The Python script below was written by Radu Eosif Mihăilescu:
#!/usr/bin/python
"""Custom work for Razvan T. Coloja, placed in the public domain by the author.
"""
import sys
MAGIC_WORD = 'abandon'
def main(argv):
with open(argv[1], 'r') as faddr:
addresses = set(l.rstrip() for l in faddr)
with open(argv[2], 'r') as fres:
the_text = set(l.rstrip() for l in fres)
for address in addresses:
for line in the_text:
if line.startswith(address):
where_found = line.find(MAGIC_WORD)
if where_found != -1:
if where_found > 50:
start_excerpt = where_found - 50
else:
start_excerpt = 0
print '"%s","%s"' % (
address,
line[start_excerpt:where_found + len(MAGIC_WORD) + 50])
if __name__ == '__main__':
main(sys.argv)
Eritreea (oficial Statul Eritreea) este un situat în partea de nord-est a Africii, mărginit de Sudan la nord și nord-vest, Etiopia la sud și vest, Djibouti la sud-est și Marea Roșie la est. Fostă colonie italiană și britanică, Eritreea a fost anexată de Etiopia în 1952 `code`
– Razvan T. Coloja Nov 18 '17 at 19:03