Извлечение текста из PDF (у меня есть ссылка на PDF) в ruby

У меня есть ссылка типа

      http://www.downloads.com/help.pdf

Я хочу загрузить это и проанализировать его, чтобы получить текстовое содержимое.

Как мне это сделать? Я также планирую пометить-ize (если есть такое слово) извлеченный текст

3 ответов


вы можете использовать драгоценный камень pdf-reader (пример / текст.пример rb прост и работал для меня):https://github.com/yob/pdf-reader

или утилита командной строки pdftotext.



вы также можете посмотреть DocRipper, драгоценный камень, который я поддерживаю, который предоставляет интерфейс Ruby для извлечения текста из ряда форматов документов, включая PDF, doc, docx и sketch.

DocRipper использует pdftotext под капотом и избегает зависимостей Java.

require 'doc_ripper'

DocRipper::rip('/path/to/file.pdf') => "Pdf text"

вы можете читать удаленные файлы с помощью стандартной библиотеки Ruby:

require 'open-uri'
require 'doc_ripper'

tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)