Tesseract не признает немецкий " für"
Я использую tesseract 4.0 через docker image tesseractshadow/tesseract4re
Я использую опцию -l=deu
чтобы дать тессеракту подсказку, что текст находится в "deutsch" (немецкий).
все же результат для немецкого слова " für " не очень хорош. Немецкое слово очень распространено (означает "для" на английском языке).
Тессеракт часто обнаруживает "fiir"или " мех".
что я могу сделать, чтобы улучшить это?
воспроизводимые пример
docker run --name self.container_name --rm
--volume $PWD:/pwd
tesseractshadow/tesseract4re
tesseract /pwd/die-fuer-das.png /pwd/die-fuer-das.png.ocr-result -l=deu
результат:
cat die-fuer-das.png.ocr-result.txt
die fur das
изображение die_fuer_das.png:
2 ответов
Я нашел решение. Это должно быть -l deu
в противном случае немецкий язык не привыкать. Я случайно использовал -l=deu
.
работает:
===> tesseract die-fuer-das.png out -l deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die für das
неверный язык:
===> tesseract die-fuer-das.png out -l=deu; cat out.txt
Tesseract Open Source OCR Engine v4.0.0-beta.1-262-g555f with Leptonica
die fur das
Это больше комментарий, чем прямой ответ на ваш вопрос. Вот еще одна точка данных: если я использую ссылку с вашим изображением с OCR.space API это не совершенно правильно:
****** Result for Image/Page 1 ******
die für das
в прошлом масштабирование до 300dpi часто улучшало результаты Tesseract, но я удивлен, что это все еще необходимо в версии 4.