Существует ли жизнеспособная библиотека / программа распознавания рукописного текста? [закрытый]

Я ищу, чтобы обработать кучу отсканированных открыток ответа, которые имеют собственноручной контактная информация о них (т. е. имя, адрес, телефон, электронная почта и т. д.).

Мне любопытно, есть ли жизнеспособная библиотека с открытым исходным кодом или часть программного обеспечения для этого (в идеале Java или R). При осмотре вокруг много информации с 2009 года или рано и не очень обнадеживает.

язык-английский.

какие предложения?

изменить: Я посмотрел страницу OCRopus, но последняя версия с мая 2009 года. У кого-нибудь есть опыт работы с этим или есть более поздняя версия?

3 ответов


для начала, насколько я знаю, нет собственных SDK с открытым исходным кодом Java OCR. Есть API Java, которые обертывают вызовы для собственных интерфейсов, tesjeract (http://code.google.com/p/tesjeract/) или Tess4J (http://tess4j.sf.net/).

затем вам нужно указать, ищете ли вы рукописный или рукописный текст. Если вам нужно распознавание рукописного текста - я не верю, что вы сможете решить свои задачи по причинам, изложенным в других ответы.

однако, если вам нужен ICR (что означает интеллектуальное распознавание символов) для рукописного текста (довольно четкие буквы, используемые в опросах, формах и т. д.) может быть решение. Хотя я верю, что tesseract (несмотря на то, что он считается лучшим среди движков с открытым исходным кодом) не будет выполнять эту работу для вас здесь, вы можете искать более точные SDK.

возможно, этот вопрос поможет:рукописный отсканированный док .файл txt?


Я не знаю о какой-либо рабочей библиотеке распознавания рукописного текста с открытым исходным кодом, независимо от того, что я нахожусь в пространстве OCR уже некоторое время. Обычно почерк сложнее, чем OCR, и я бы сказал, что нет даже приличного коммерческого решения. Все, что существует, имеет свои проблемы и может работать только в очень узких приложениях, например, когда словарь ограничен, текст хорошо написан и т. д. Если вы все еще заинтересованы, я бы рекомендовал проверить технологию от французской компании I2IA


вы можете посмотреть наhttp://code.google.com/p/ocropus/, который является системой OCR с открытым исходным кодом.

но, похоже, он написан на C++ и python.

*обновление: *

поскольку один из исследовательских проектов-рукописный анализатор, я ожидаю, что это может помочь.

двигатель OCRopus основан на двух исследовательских проектах: a высокопроизводительный распознаватель почерка, разработанный в середине 90-х годов и развертываемый Бюро переписи населения США, и новый высокопроизводительный макет методики анализа.

и если вы посмотрите на http://code.google.com/p/ocropus/source/browse/ исходные файлы были обновлены с 10/2011 (один из трех был с 3/2012), поэтому он, похоже, все еще находится в стадии разработки.