Распознавание текста на отсканированном паспорте

Question

Распознавание текста на отсканированном паспорте

Здравствуйте.

Необходимо реализовать на PHP распознавание текста со скана паспорта. Для выполнения задачи были испробованы библиотеки Tesseract и GOCR (JOCR) - обе не очень хорошо справляются с задачей.

Поэтому пришел к выводу, что нужно написать свой класс, который будет иметь следующие возможности:
0. Превращение изображения в монохромное.
1. Уменьшение яркости и повышение контрастности для устранения фоновых артефактов.
2. Поворот изображения на нужный градус для получения ровного прямоугольника по контуру паспорта.
3. Пропорциональная обрезка изображения по контуру паспорта.
4. Изменение размера обрезанного изображения до заданной величины.
5. Вырезка нужных областей изображения с текстом по сетке.
6. Разбивка букв из вырезанной области на отдельные изображения (текст на паспорте моноширинный).
7. Сравнение каждой буквы по матрице.
8. Составление текстовой строки.
9. Вывод каждой строки в текстовое поле для корректировки при необходимости.

Каким образом возможна реализация? Прошу подсказать, в каком направлении двигаться.

0

ocr php паспорт распознавание-образов текст

автор: satanlucas

Распознавание текста на отсканированном паспорте

1 ответов