Как конвертировать PDF в HTML?

есть ли правильная библиотека, которую я могу использовать для преобразования PDF в HTML или какой-либо другой формат, который можно легко преобразовать в HTML?

Я искал подобные вопросы, но не повезло.

Я хочу иметь возможность извлекать текст из PDF-файлов, возможно, изображений. Я не собираюсь вставлять PDF в HTML.

7 ответов


Как я уже упоминал в комментарии выше, определенно можно конвертировать pdf в html с помощью инструмента Able2Extract7, который можно скачать с здесь

Я использую этот инструмент уже почти 2 года, и я очень доволен этим. Этот инструмент позволяет конвертировать PDF в Word, Excel, PowerPoint, Publisher,HTML-код, OO etc. Смотрите скриншот

enter image description here

ИМП Примечание: этот инструмент не является свободно распространяемое обеспечение.

HTH


технически невозможно просто "конвертировать" PDF-файл в HTML. Формат PDF больше похож на" холст", где вы" размещаете "свои текстовые блоки и изображения, тогда как HTML нужен либо CSS, либо много таблиц для" размещения " блоков. Более того, PDF-файлы вставляют изображения, тогда как HTML просто вызывает другие файлы.
Есть много других примеров различий, но, по сути, это похоже на просьбу преобразовать изображение или видео с текстом в нем.

вы можете, однако, читать из PDF файл, а затем извлечь текст и изображения из него, используя библиотеки или другие передовые методы. .Net имеет несколько библиотек, например:http://forums.asp.net/post/2167442.aspx

Если вам нужно преобразовать только один файл один раз, вы можете открыть файл pdf в Illustrator, например, а затем экспортировать его в html. Или вы можете выбрать весь документ (ctrl+a), скопировать его и вставить в Word, а затем сохранить результат в html. Это будет далеко не идеально, но это будет начало.


Если вы на Linux, попробуйте pdftohtml:

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes file.html

конвертер электронных книг с открытым исходным кодом калибра также можно конвертировать PDF-файлы в HTML и доступен на MacOS, Windows и Linux.


скачать

  • pdfbox-2.0.3.Джар
  • fontbox-2.0.3.Джар
  • предполетный-2.0.3.Джар
  • xmpbox-2.0.3.Джар
  • pdfbox-инструменты-2.0.3.Джар
  • pdfbox-отладчик-2.0.3.Джар

от http://pdfbox.apache.org/

 import java.io.InputStream;
 import java.io.IOException;
 import org.apache.pdfbox.pdmodel.PDDocument;
 import org.apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

обратите внимание: изображения не нажимаются на вывод HTML.


это не так сложно конвертировать PDF в HTML. Существует множество онлайн-опций, которые могут, однако, предоставлять ваши данные третьим лицам. Выполните следующие действия, и результат будет отличным.

  1. открыть в PDF2HTMLEX страницы. (Вы можете либо следовать следующим шагам, которые я упомянул, либо следовать указаниям со страницы.)

  2. пакет доступен для загрузки для Windows из вот!--8-->.

    из множества доступных опций я рекомендую загрузить " pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip (pdf2htmlEx.exe упакован с UPX)"

  3. после загрузки и распаковки конверсия-это всего лишь одна команда cmd.

    C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\abc.pdf
    

    Последняя Команда:

    pdf2htmlEX.exe c:\abc.pdf
    

    (вы можете, конечно, сократить имя папки, однако, я сохранил его таким же, как вы увидите после распаковки загрузки. Я предполагаю, что вы можно изменить каталог в cmd на нужную папку или еще Google как.)

abc.pdf будет преобразован в HTML и будет сохранен как abc.html в той же папке, что и ваш exe.


Не уверен, что это может быть полезно, но если вам нужно одноразовое преобразование, вы можете попробовать этот бесплатный онлайн-инструмент:https://www.readkong.com/

использовал этот сайт несколько раз. Он создает html, идентичный исходному источнику pdf. Нет уродливой и сломанной разметки, нет HTML mashup и так далее, даже для очень сложных pdf.


Да, это определенно возможно. Если ваш на ubuntu linux

apt-get install htmltopdf

затем

htmltopdf myFile.pdf myFile.htm -c -noframes

Если вы хотите увидеть, что означают все флаги, просто введите

htmltopdf

Если вы не на linux, есть множество инструментов, которые вы можете использовать, чтобы это произошло.