Как конвертировать PDF в HTML?
есть ли правильная библиотека, которую я могу использовать для преобразования PDF в HTML или какой-либо другой формат, который можно легко преобразовать в HTML?
Я искал подобные вопросы, но не повезло.
Я хочу иметь возможность извлекать текст из PDF-файлов, возможно, изображений. Я не собираюсь вставлять PDF в HTML.
7 ответов
Как я уже упоминал в комментарии выше, определенно можно конвертировать pdf в html с помощью инструмента Able2Extract7, который можно скачать с здесь
Я использую этот инструмент уже почти 2 года, и я очень доволен этим. Этот инструмент позволяет конвертировать PDF в Word, Excel, PowerPoint, Publisher,HTML-код, OO etc. Смотрите скриншот
ИМП Примечание: этот инструмент не является свободно распространяемое обеспечение.
HTH
технически невозможно просто "конвертировать" PDF-файл в HTML. Формат PDF больше похож на" холст", где вы" размещаете "свои текстовые блоки и изображения, тогда как HTML нужен либо CSS, либо много таблиц для" размещения " блоков. Более того, PDF-файлы вставляют изображения, тогда как HTML просто вызывает другие файлы.
Есть много других примеров различий, но, по сути, это похоже на просьбу преобразовать изображение или видео с текстом в нем.
вы можете, однако, читать из PDF файл, а затем извлечь текст и изображения из него, используя библиотеки или другие передовые методы. .Net имеет несколько библиотек, например:http://forums.asp.net/post/2167442.aspx
Если вам нужно преобразовать только один файл один раз, вы можете открыть файл pdf в Illustrator, например, а затем экспортировать его в html. Или вы можете выбрать весь документ (ctrl+a), скопировать его и вставить в Word, а затем сохранить результат в html. Это будет далеко не идеально, но это будет начало.
Если вы на Linux, попробуйте pdftohtml:
sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes file.html
конвертер электронных книг с открытым исходным кодом калибра также можно конвертировать PDF-файлы в HTML и доступен на MacOS, Windows и Linux.
скачать
- pdfbox-2.0.3.Джар
- fontbox-2.0.3.Джар
- предполетный-2.0.3.Джар
- xmpbox-2.0.3.Джар
- pdfbox-инструменты-2.0.3.Джар
- pdfbox-отладчик-2.0.3.Джар
import java.io.InputStream;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}
обратите внимание: изображения не нажимаются на вывод HTML.
это не так сложно конвертировать PDF в HTML. Существует множество онлайн-опций, которые могут, однако, предоставлять ваши данные третьим лицам. Выполните следующие действия, и результат будет отличным.
открыть в PDF2HTMLEX страницы. (Вы можете либо следовать следующим шагам, которые я упомянул, либо следовать указаниям со страницы.)
-
пакет доступен для загрузки для Windows из вот!--8-->.
из множества доступных опций я рекомендую загрузить " pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip (pdf2htmlEx.exe упакован с UPX)"
-
после загрузки и распаковки конверсия-это всего лишь одна команда cmd.
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\abc.pdf
Последняя Команда:
pdf2htmlEX.exe c:\abc.pdf
(вы можете, конечно, сократить имя папки, однако, я сохранил его таким же, как вы увидите после распаковки загрузки. Я предполагаю, что вы можно изменить каталог в cmd на нужную папку или еще Google как.)
abc.pdf будет преобразован в HTML и будет сохранен как abc.html в той же папке, что и ваш exe.
Не уверен, что это может быть полезно, но если вам нужно одноразовое преобразование, вы можете попробовать этот бесплатный онлайн-инструмент:https://www.readkong.com/
использовал этот сайт несколько раз. Он создает html, идентичный исходному источнику pdf. Нет уродливой и сломанной разметки, нет HTML mashup и так далее, даже для очень сложных pdf.
Да, это определенно возможно. Если ваш на ubuntu linux
apt-get install htmltopdf
затем
htmltopdf myFile.pdf myFile.htm -c -noframes
Если вы хотите увидеть, что означают все флаги, просто введите
htmltopdf
Если вы не на linux, есть множество инструментов, которые вы можете использовать, чтобы это произошло.