Добавление новых шрифтов в Tesseract 3

Я пытаюсь добавить новые шрифты в Tesseract ocr. Я следую в этом уроке но у меня есть некоторые проблемы.

вот что я сделал до сих пор:

  1. создать учебный документ

    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif

  2. Поезд Тессеракт

    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

    Это создало мой eng.сайт myfont.exp0.файл Box.

    Я открываю файл с помощью moshpytt и убеждаюсь, что он был обнаружен правильно.

  3. верните файл коробки в tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

    у меня такой результат:

    Tesseract с открытым исходным кодом OCR Engine v3.03 с Лептоникой
    APPLY_BOXES:
    Коробки читать из boxfile: 146
    Найдено 146 хороших капель.
    ОБУЧЕНИЕ... Имя шрифта = myfont.exp0
    Сгенерированные данные обучения для 6 слов

    • eng.myfont.exp0.box.tr файл и анг.сайт myfont.exp0.коробка.txt, который создается
  4. попробуйте определить набор символов, используемый в файле box (здесь я застрял)

    unicharset_extractor *.box

результат:

unicharset_extractor: команда не найдена

я тоже тред unicharset_extractor eng.myfont.exp0.box С тем же результатом.

Я:

  • Тессеракт 3.03
  • leptonica-1.70
  • 4.1.6 libgif(?): libjpeg 8d: libpng 1.2.50: libtiff 4.0.3 : zlib 1.2.8: webp 0.4.0
  • Ubuntu 14.04.1 LTS

2 ответов


учебные инструменты для Tesseract 3.03 RC были опущены из Ubuntu 14.04. Так что либо вернуться к Tesseract 3.02 или обновление до Ubuntu 14.10, который должен иметь его.


Ок, я погуглил это для вас. Вот ответ:

нужно запускать все команды в той же папке, где находятся ваши входные файлы.

From: