Tesseract не признает немецкий " für"

Я использую tesseract 4.0 через docker image tesseractshadow/tesseract4re

Я использую опцию -l=deu чтобы дать тессеракту подсказку, что текст находится в "deutsch" (немецкий).

все же результат для немецкого слова " für " не очень хорош. Немецкое слово очень распространено (означает "для" на английском языке).

Тессеракт часто обнаруживает "fiir"или " мех".

что я могу сделать, чтобы улучшить это?

воспроизводимые пример

docker run --name self.container_name --rm 
    --volume  $PWD:/pwd 
    tesseractshadow/tesseract4re 
    tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu

результат:

cat die-fuer-das.png.ocr-result.txt 
die fur das

изображение die_fuer_das.png:

enter image description here

2 ответов


Я нашел решение. Это должно быть -l deu в противном случае немецкий язык не привыкать. Я случайно использовал -l=deu.

работает:

===> tesseract  die-fuer-das.png out  -l deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die für das

неверный язык:

===> tesseract  die-fuer-das.png out  -l=deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die fur das

Это больше комментарий, чем прямой ответ на ваш вопрос. Вот еще одна точка данных: если я использую ссылку с вашим изображением с OCR.space API это не совершенно правильно:

****** Result for Image/Page 1 ******
die für das 

в прошлом масштабирование до 300dpi часто улучшало результаты Tesseract, но я удивлен, что это все еще необходимо в версии 4.