Как определить PDF-файлы, которые нуждаются в OCR?

У меня есть более 30 000 pdf-файлов. Некоторые файлы уже OCR, а некоторые нет. Есть ли способ узнать, какие файлы уже распознанные и какие форматы PDF только изображения?

Это займет навсегда, если я запустил каждый файл через процессор OCR.

3 ответов


Я бы написал небольшой скрипт для извлечения текста из PDF-файлов и посмотреть, является ли он "пустым". Если есть текст, PDF уже был OCRed. Вы могли бы использовать ghostscript или ни xpdf для извлечения текста.

изменить: Это должно заставить вас начать:

foreach ($pdffile in get-childitem -filter *.pdf){
    $pdftext=invoke-expression ("\path\to\xpdf\pdftotext.exe '"+$pdffile.fullname+"' -");
    write-host $pdffile.fullname
    write-host $pdftext.length;
    write-host $pdftext;
    write-host "-------------------------------";
}

к сожалению, даже если у вас есть только изображения в PDF pdftotext извлечет некоторый текст, поэтому вам придется сделать еще немного работы, чтобы проверить, нужно ли вам OCR документ pdf.


XPDF работал для меня по-другому. Но не уверен, что это правильный путь.

мои PDF-файлы с изображением также дали текстовое содержимое. Поэтому я использовал pdffonts.exe чтобы проверить, встроены ли шрифты в документ или нет.В моем случае все файлы изображений показали " нет " для встроенного значения.

> Config Error: No display font for 'Symbol' 
> Config Error: No display font for 'ZapfDingbats' 
> name                                 type              emb sub uni object ID
> ------------------------------------ ----------------- --- --- --- --------- 
> Helvetica                            Type 1            no  no  no       7  0

где как все поисковые PDF-файлы дали 'yes'

> Config Error: No display font for 'Symbol'
> Config Error: No display font for 'ZapfDingbats'
> name                                 type              emb sub uni object ID
> ------------------------------------ ----------------- --- --- --- ---------
> ABCDEE+Calibri                       TrueType          yes yes no       7  0
> ABCDEE+Calibri,Bold                  TrueType          yes yes no       9  0

Я обнаружил, что TotalCmd имеет плагин, который обрабатывает это: https://totalcmd.net/plugring/pdfOCR.html

pdfOCR-это плагин wdx, который обнаруживает, сколько страниц PDF-файла в текущий каталог требует распознавания символов( OCR), т. е. сколько страницы в PDF-файле нет текстового оформления. Это в основном требуется, когда вы готовите PDF-файлы для своей документации или система архивирования. Как правило, в работе с PDF-файлами им нужны быть преобразованным из отсканированной версии в текстовую форму для поиска перед они включены в любую документацию для того чтобы прибавлять на руководство или автоматический поиск текста. Плагин pdfOCR для Total Commander выполняет потребность библиотекаря, представляя количество страниц, которые являются изображениями только без текста. Количество отсканированных страниц в графе "needOCR". Сравнивая количество страниц needOCR с общее количество страниц можно решить, нужен ли файл PDF дополнительный Обработка OCR.