Извлечение текста из PDF (у меня есть ссылка на PDF) в ruby

Question

Извлечение текста из PDF (у меня есть ссылка на PDF) в ruby

У меня есть ссылка типа

      http://www.downloads.com/help.pdf

Я хочу загрузить это и проанализировать его, чтобы получить текстовое содержимое.

Как мне это сделать? Я также планирую пометить-ize (если есть такое слово) извлеченный текст

6

pdf ruby

автор: Nakilon

3 ответов

автор: seeingidog · Accepted Answer · 2011-02-05 07:42:44

вы можете использовать драгоценный камень pdf-reader (пример / текст.пример rb прост и работал для меня):https://github.com/yob/pdf-reader

или утилита командной строки pdftotext.

автор: diasks2 · Accepted Answer · 2014-10-22 03:24:12

на йому также сможет извлечь текст из PDF (а также других типов MIME) для вас.

require 'yomu'
Yomu.new(file_path).text

автор: Paul · Accepted Answer · 2017-04-13 15:57:08

вы также можете посмотреть DocRipper, драгоценный камень, который я поддерживаю, который предоставляет интерфейс Ruby для извлечения текста из ряда форматов документов, включая PDF, doc, docx и sketch.

DocRipper использует pdftotext под капотом и избегает зависимостей Java.

require 'doc_ripper'

DocRipper::rip('/path/to/file.pdf') => "Pdf text"

вы можете читать удаленные файлы с помощью стандартной библиотеки Ruby:

require 'open-uri'
require 'doc_ripper'

tmp_file = open("some_uri")
DocRipper::rip(tmp_file.path)