Пользовательский словарь для Tesseract

Question

Пользовательский словарь для Tesseract

в настоящее время я работаю над проектом для android с помощью Tesseract OCR. Я надеялся настроить результаты, предоставленные пользователю, добавив словарь. Согласно http://code.google.com/p/tesseract-ocr/wiki/FAQ, лучший способ сделать это было бы

заменить tessdata / eng.user-слова с вашим собственным списком слов, в том же формат-UTF8 текст, одно слово в строке.

однако нет eng.файл user-words в папку tessdata, я предполагаю, что если я просто создаю текстовый файл с моим словарем в нем, он никогда не будет использоваться..

кто-нибудь имел подобный опыт и знает, что делать? Любой совет будет большой помощью.

10

android dictionary ocr tesseract

автор: TomSelleck

1 ответов

автор: roocell · Accepted Answer · 2013-12-18 18:47:07

Если вы используете tesseract 3 (что я предполагаю, что вы). Вам придется восстановить Англию.файл trainddata Я намеревался полностью заменить файл word-dawg, чтобы попытаться получить лучшие результаты (т. е. слова, которые я обнаруживаю, всегда одинаковы).

при компиляции tesseract вам понадобятся исполняемые файлы combine_tessdata и wordlist2dawg в каталоге обучения.

распаковать все (я сделал это только для резервного копирования моего eng.word-dawg, вам также понадобится unicharset позже)

./ combine_tessdata-u eng.traineddata
создайте текстовый файл вашего списка слов (wordlistfile)
создать eng.word-dawg

./ wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset
заменить слово-dawg файл

./ combine_tessdata-o eng.traineddata анг.word-dawg

Это должно быть так.