Извлечение текста из PDF (у меня есть ссылка на PDF) в ruby
У меня есть ссылка типа
http://www.downloads.com/help.pdf
Я хочу загрузить это и проанализировать его, чтобы получить текстовое содержимое.
Как мне это сделать? Я также планирую пометить-ize (если есть такое слово) извлеченный текст
3 ответов
вы можете использовать драгоценный камень pdf-reader (пример / текст.пример rb прост и работал для меня):https://github.com/yob/pdf-reader
или утилита командной строки pdftotext.
на йому также сможет извлечь текст из PDF (а также других типов MIME) для вас.
require 'yomu'
Yomu.new(file_path).text
вы также можете посмотреть DocRipper, драгоценный камень, который я поддерживаю, который предоставляет интерфейс Ruby для извлечения текста из ряда форматов документов, включая PDF, doc, docx и sketch.
DocRipper использует pdftotext под капотом и избегает зависимостей Java.
require 'doc_ripper'
DocRipper::rip('/path/to/file.pdf') => "Pdf text"
вы можете читать удаленные файлы с помощью стандартной библиотеки Ruby:
require 'open-uri'
require 'doc_ripper'
tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)