Пользовательский словарь для Tesseract
в настоящее время я работаю над проектом для android с помощью Tesseract OCR. Я надеялся настроить результаты, предоставленные пользователю, добавив словарь. Согласно http://code.google.com/p/tesseract-ocr/wiki/FAQ, лучший способ сделать это было бы
заменить tessdata / eng.user-слова с вашим собственным списком слов, в том же формат-UTF8 текст, одно слово в строке.
однако нет eng.файл user-words в папку tessdata, я предполагаю, что если я просто создаю текстовый файл с моим словарем в нем, он никогда не будет использоваться..
кто-нибудь имел подобный опыт и знает, что делать? Любой совет будет большой помощью.
1 ответов
Если вы используете tesseract 3 (что я предполагаю, что вы). Вам придется восстановить Англию.файл trainddata Я намеревался полностью заменить файл word-dawg, чтобы попытаться получить лучшие результаты (т. е. слова, которые я обнаруживаю, всегда одинаковы).
при компиляции tesseract вам понадобятся исполняемые файлы combine_tessdata и wordlist2dawg в каталоге обучения.
-
распаковать все (я сделал это только для резервного копирования моего eng.word-dawg, вам также понадобится unicharset позже)
./ combine_tessdata-u eng.traineddata
создайте текстовый файл вашего списка слов (wordlistfile)
-
создать eng.word-dawg
./ wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset
-
заменить слово-dawg файл
./ combine_tessdata-o eng.traineddata анг.word-dawg
Это должно быть так.