3

I need to take an HTML page in Arabic and convert it to a PDF. itextsharp doesn't work. Here is some example HTML with Arabic in it.

<div>
    <table border="1" width="500px">
        <tr>
            <td colspan="2">
                aspdotnetcodebook
                اللغة العربية</td>
        </tr>
        <tr>
            <td>
                cell1
            </td>
            <td>
                cell2
            </td>
        </tr>
        <tr>
            <td colspan="2">
                <asp:Label ID="lblLabel" runat="server" 
                    Text=""></asp:Label>
                <img alt="" src="logo.gif" style="width: 174px; height: 40px" /></td>
        </tr>
        <tr>
            <td colspan="2" dir="rtl">
                <h1>
                    <img alt="" height="168" 
                        src="http://a.cksource.com/c/1/inc/img/demo-little-red.jpg" 
                        style="margin-left: 10px; margin-right: 10px; float: left;" width="120" />تحويل 
                    محتوى الى ملف بي دي اف</h1>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.
                    <a href="http://en.wikipedia.org/wiki/Brothers_Grimm">
                    الاخوان جريم/a> مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة 
                    التعلم بالبحث والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون 
                    ويريدون أن يتعلموا كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى 
                    عربي معاصر في الفكر والعلم والفنون والأداب بعيدا الكتابة الإبداعية. <a href="http://en.wikipedia.org/wiki/Hood_(headgear%2529" 
                        title="Hood (headgear)">ا</a><a 
                        href="http://en.wikipedia.org/wiki/Hood_(headgear%2529">لهودد</a>
                    <a href="http://en.wikipedia.org/wiki/Cape" title="Cape">ك</a><a 
                        href="http://en.wikipedia.org/wiki/Cape">يب</a> أو
                    <a href="http://en.wikipedia.org/wiki/Cloak" title="ويكيبيديا">ويكيبيديا</a> 
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية. .</p>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.</p>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.</p>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.
                    <a href="http://en.wikipedia.org/wiki/Hunter">الصياد</a>, مجموعة المحتوى 
                    العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث والتعلم بالكتابة. 
                    المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا كيف يكتبون كتابة 
                    علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر والعلم والفنون 
                    والأداب بعيدا الكتابة الإبداعية. المحتوى العربي، تعنى بتطوير مهارة الكتابة 
                    وتتبنى فكرة التعلم بالبحث والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين 
                    يكتبون ويريدون أن يتعلموا كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج 
                    محتوى عربي معاصر في الفكر والعلم والفنون والأداب بعيدا الكتابة الإبداعية.</p>
                <p>
                    مجموعة المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث 
                    والتعلم بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا 
                    كيف يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية.                         <a href="http://en.wikipedia.org/wiki/Enchanted_forest">الغابة</a>, مجموعة 
                    المحتوى العربي، تعنى بتطوير مهارة الكتابة وتتبنى فكرة التعلم بالبحث والتعلم 
                    بالكتابة. المجموعة تضم الأعضاء الجادين الذين يكتبون ويريدون أن يتعلموا كيف 
                    يكتبون كتابة علمية وفكرية رصينه ويساهمون في انتاج محتوى عربي معاصر في الفكر 
                    والعلم والفنون والأداب بعيدا الكتابة الإبداعية. </p>
            </td>
        </tr>
    </table>
</div>

i use itextsharp to convert this content which is stored in DB to pdf file to be downloaded to the user

bmargulies
  • 97,814
  • 39
  • 186
  • 310
Mariam
  • 533
  • 2
  • 12
  • 22
  • 2
    What exactly is your question or problem? What have you tried, what doesn't work? Why have you tagged this c# and asp.net - what platform / language are you trying to solve this on? – Pekka May 22 '10 at 08:34
  • Instead of the slug of HTML, I suggest posting a code fragment of how you are trying to do with with itextsharp. – bmargulies May 23 '10 at 21:02
  • check this question that may help you http://stackoverflow.com/questions/16080741/convert-arabicunicode-content-html-or-xml-to-pdf-using-itextsharp – Mohamed Salah Jul 27 '15 at 14:41

4 Answers4

1

do you have the c# code in hand? there is this online resource discussing how to use itextsharp to create PDF. is it a problem of characterset, font or right to left problem?

http://www.devshed.com/c/a/Java/Creating-Simple-PDF-Files-With-iTextSharp/

http://www.codeproject.com/KB/graphics/ITextSharpHelperClass.aspx

I hope it can help

A.Rashad
  • 1,066
  • 12
  • 26
  • The question is not how to create a new PDF but how to convert HTML to PDF. – Darin Dimitrov May 22 '10 at 08:44
  • these examples are dealing with creating new documents and adding some elements as phrase or table or cell - i mean that i create and concatenate the document - item by item- but my case is different i have the HTML content stored in DB - i retrieve it and display it on HTML page also i have ARABIC in the HTML which convert as an empty pdf – Mariam May 22 '10 at 08:58
  • I found this post http://stackoverflow.com/questions/1322303/html-to-pdf-some-characters-are-missing-itextsharp where someone is facing a problem of missing Turkish characters from the PDF, which leads to a conclusion that UTF8 might be having a problem in itextsharp however, there are some examples on how to read text written in UTF8 in java http://www.itextpdf.com/examples/index.php?page=example&id=215 – A.Rashad May 22 '10 at 09:19
1

Apache PDFBox can do this, but perhaps not with the quality of rendering that you need. You might have to use Apache Tika to get the text out of the HTML, thus losing much of the format. In any case, I fear that sending you off down a path of various Java components won't float your boat, but it's the only code I know of for free that deals with RTL PDF files. Which does not mean that it's the only code that exists.

bmargulies
  • 97,814
  • 39
  • 186
  • 310
0

I think CutyCapt is the utility you need, it can convert the html to pdf and many other formats.

Zaheer Ahmed
  • 28,160
  • 11
  • 74
  • 110
0

these examples are dealing with creating new documents and adding some elements as phrase or table or cell - i mean that i create and concatenate the document - item by item- but my case is different

i have the HTML content stored in DB - i retrieve it and display it on HTML page

also i have ARABIC in the HTML which convert as an empty pdf

i use asp.net with C# to convert this ARABIC HTML content to pdf i use itextsharp to achieve this

Mariam
  • 533
  • 2
  • 12
  • 22