Обработки изображений для распознавания текста с leptonica (инверсный цвет текста)
Я пытаюсь обработать следующее изображение с помощью лептоники, чтобы извлечь текст с помощью tesseract.
Оригинальное Изображение:
Тессеракт на исходном изображении дает следующее:
i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-
не очень, особенно верхний фон. Поэтому, используя leptionica, я использую алгоритм удаления фона (размытие, разность, порог, инвертирование), чтобы получить следующее изображение:
но Тессеракт не делает хорошую работу с это:
@@r-mair lkrm@W lh@w ilr@ mJs@ iklh@ ii@c2lhm1@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m ll@@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a D
to other non-profrts
I
основная проблема, похоже, в том, что теперь весь текст очерчен вместо сплошного. Как я могу настроить свой алгоритм или что я могу добавить, чтобы сделать текст твердым?
1 ответов
похоже, что в этой статье предлагается метод бинаризации, который решает вашу проблему:
T Касар, Дж Кумар и Г Рамакришнан. шрифт и цвет фона независимая бинаризация текста. (2007)