0

I have many php files full of html markup. I would like to extract all the strings (html node content and attribute values), to generate a text document to review then send for translation.

I'm wondering, is there a reliable way (a tool or a script perhaps) that would do that automatically?

Example code i have:

<div class="row">
    <div class="medium-11 columns medium-centered">
        <p style="font-weight:bold;">Bienvenue sur votre compte, vous permettant
            de répondre aux offres d'emploi. Tenez à jour vos données
            personnelles et vos documents officiels tels que CV, diplôme ou
            permis de conduire, et retrouvez l'historique des offres auxquelles
            vous aviez postulé.</p>
    </div>
</div>
<dl class="tabs" data-tab="">
    <dd class="active">
        <a href="#profile"><i class="fi-torso"></i> Votre profil</a>
    </dd>
    <dd>
        <a href="#formation"><i class="fi-bookmark"></i> Formation</a>
    </dd>
    <dd>
        <a href="#experience"><i class="fi-shuffle"></i> Expérience</a>
    </dd>
    <dd>
        <a href="#documents"><i class="fi-paperclip"></i> Documents</a>
    </dd>
    <dd>
        <a href="#history"><i class="fi-foundation"></i> Historique</a>
    </dd>
</dl>
<input type="hidden" name="user_id" value="USERID">
<input type="radio" name="sexe" value="2" id="Monsieur" title="veuillez indiquer votre genre">

What i would like to extract:

Bienvenue sur votre compte, vous permettant de répondre aux offres d'emploi. Tenez à jour vos données personnelles et vos documents officiels tels que CV, diplôme ou permis de conduire, et retrouvez l'historique des offres auxquelles vous aviez postulé.
Votre profil
Formation
Expérience
Documents
Historique
veuillez indiquer votre genre
pixeline
  • 17,669
  • 12
  • 84
  • 109

1 Answers1

2

To remove all the tags in the HTML, you can use strip_tags():

$text_only = strip_tags($html_codes);

For document generation part, it depends what kind of document you want to generate.

Raptor
  • 53,206
  • 45
  • 230
  • 366