Модель Tensorflow для распознавания текста

Я новичок в Tensorflow, и я пытаюсь построить модель, которая сможет выполнять OCR на моих изображениях. Я должен прочитать 9 символов (фиксированных во всех изображениях), цифры и буквы. Моя модель была бы похожа на эту

https://matthewearl.github.io/2016/05/06/cnn-anpr/

мои вопросы были бы, если бы я тренировал свою модель против каждого символа сначала и после объединения символов, чтобы получить полную метку. Или я должен тренироваться на полную катушку. прямо ?

Я знаю, что мне нужно перейти к модели, изображениям + меткам для соответствующего изображения, каков формат этих меток, это текстовый файл, я немного запутался в этой части, поэтому любое объяснение формата меток, которые передаются в модель, было бы полезно ? Я ценю, спасибо.

2 ответов


Я бы рекомендовал тренировать сквозную модель OCR с вниманием. Вы можете попробовать внимание OCR, который мы использовали для транскрибирования названий улицhttps://github.com/tensorflow/models/tree/master/research/attention_ocr

Я думаю, что это должно работать довольно хорошо для вашего случая. Обратитесь к ответу https://stackoverflow.com/a/44461910 для инструкций о том, как подготовить данные для него.


есть несколько способов борьбы с этим (следующий список не является исчерпывающим).

1) первый-классификация слов непосредственно из вашего изображения. Если ваш словарный запас из 9 символов ограничен, Вы можете обучить классификатор слов. Затем вы можете свернуть этот классификатор с вашим изображением и выбрать слово с наибольшей вероятностью.

2) второй вариант-обучить классификатор символов, найти все символы на вашем изображении и найти наиболее вероятно, линия, которая имеет символ 9, который вы ищете.

3) третий вариант-подготовить текстовый детектор, найти все возможные текстовые поля. Затем прочитайте все текстовые поля с моделью на основе последовательности и выберите наиболее вероятное решение, соответствующее вашим ограничениям. Простая модель на основе последовательности представлена в следующей статье:http://ai.stanford.edu / ~ang / papers / ICPR12-TextRecognitionConvNeuralNets.pdf. Другие модели на основе последовательности могут быть основаны на HMMs, Коннекционистская временная классификация, модели на основе внимания и т. д.

4) Четвертый вариант-это модели, основанные на внимании, которые работают от начала до конца, чтобы сначала найти текст, а затем вывести символы один за другим.

обратите внимание, что этот список не является исчерпывающим, может быть много разных способов решить эту проблему. Другие варианты могут даже использовать сторонние решения, такие как Abbyy или Tesseract, чтобы помочь решить вашу проблему.