Добавление новых шрифтов в Tesseract 3
Я пытаюсь добавить новые шрифты в Tesseract ocr. Я следую в этом уроке но у меня есть некоторые проблемы.
вот что я сделал до сих пор:
-
создать учебный документ
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
-
Поезд Тессеракт
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
Это создало мой eng.сайт myfont.exp0.файл Box.
Я открываю файл с помощью moshpytt и убеждаюсь, что он был обнаружен правильно.
-
верните файл коробки в tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
у меня такой результат:
Tesseract с открытым исходным кодом OCR Engine v3.03 с Лептоникой
APPLY_BOXES:
Коробки читать из boxfile: 146
Найдено 146 хороших капель.
ОБУЧЕНИЕ... Имя шрифта = myfont.exp0
Сгенерированные данные обучения для 6 слов- eng.myfont.exp0.box.tr файл и анг.сайт myfont.exp0.коробка.txt, который создается
-
попробуйте определить набор символов, используемый в файле box (здесь я застрял)
unicharset_extractor *.box
результат:
unicharset_extractor: команда не найдена
я тоже тред unicharset_extractor eng.myfont.exp0.box
С тем же результатом.
Я:
- Тессеракт 3.03
- leptonica-1.70
- 4.1.6 libgif(?): libjpeg 8d: libpng 1.2.50: libtiff 4.0.3 : zlib 1.2.8: webp 0.4.0
- Ubuntu 14.04.1 LTS
2 ответов
учебные инструменты для Tesseract 3.03 RC были опущены из Ubuntu 14.04. Так что либо вернуться к Tesseract 3.02 или обновление до Ubuntu 14.10, который должен иметь его.
Ок, я погуглил это для вас. Вот ответ:
нужно запускать все команды в той же папке, где находятся ваши входные файлы.
From: