Пользовательский словарь для Tesseract

в настоящее время я работаю над проектом для android с помощью Tesseract OCR. Я надеялся настроить результаты, предоставленные пользователю, добавив словарь. Согласно http://code.google.com/p/tesseract-ocr/wiki/FAQ, лучший способ сделать это было бы

заменить tessdata / eng.user-слова с вашим собственным списком слов, в том же формат-UTF8 текст, одно слово в строке.

однако нет eng.файл user-words в папку tessdata, я предполагаю, что если я просто создаю текстовый файл с моим словарем в нем, он никогда не будет использоваться..

кто-нибудь имел подобный опыт и знает, что делать? Любой совет будет большой помощью.

1 ответов


Если вы используете tesseract 3 (что я предполагаю, что вы). Вам придется восстановить Англию.файл trainddata Я намеревался полностью заменить файл word-dawg, чтобы попытаться получить лучшие результаты (т. е. слова, которые я обнаруживаю, всегда одинаковы).

при компиляции tesseract вам понадобятся исполняемые файлы combine_tessdata и wordlist2dawg в каталоге обучения.

  1. распаковать все (я сделал это только для резервного копирования моего eng.word-dawg, вам также понадобится unicharset позже)

    ./ combine_tessdata-u eng.traineddata

  2. создайте текстовый файл вашего списка слов (wordlistfile)

  3. создать eng.word-dawg

    ./ wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset

  4. заменить слово-dawg файл

    ./ combine_tessdata-o eng.traineddata анг.word-dawg

Это должно быть так.