LINUX.ORG.RU

Библиотека для распознавания текста по шаблонам

 


0

1

Идея такая: есть документ / форма, в которой часть текста - малоинформативная и используется только для точного позиционирования. А другая часть - содержательная, должна преобразовываться в структурные единицы на выходе.

Пример практического применения - сканирование чеков из магазинов. Вот например, FinPix (проприетарное, под Андроид) явно использует что-то подобное. Я пробовал, кстати, довольно неплохо распознаёт, только медленно. А есть опенсорсные библиотеки, которыми можно решить такую задачу?

★★★★★

Распознование содержательной части через tesseract (это самое вменяемое что есть), и вероятно с дообучением под конкретные шрифты.

А вот анализ документа на предмет выдирания этой содержательной части очень вероятно придется делать руками.

В последних tesseract конечно layout analysis есть, но есть сильное подозрение что для 'документов' где относительно мало текста и много разметки (типа чеков) это не подойдет.

neird
()
Ответ на: комментарий от neird

В последних tesseract конечно layout analysis есть

Спасибо за ключевые слова, возможно, удастся найти, как этот самый layout analysis заставить работать. Собственно, во всех обзорах, что я читал, tesseract и называется самой вменяемой опенсорсной OCR. Правда, я читал только, как его на новый алфавит настроить, а вот про использование расположения элементов не попадалось. Очень может быть, что плохо искал.

но есть сильное подозрение что для 'документов' где относительно мало текста и много разметки (типа чеков) это не подойдет.

Ну собственно, «разметка», которую я имел в виду, тоже большей частью текстовая...

hobbit ★★★★★
() автор топика
Ответ на: комментарий от hobbit

Спасибо за ключевые слова, возможно, удастся найти, как этот самый layout analysis заставить работать. Собственно, во всех обзорах, что я читал, tesseract и называется самой вменяемой опенсорсной OCR. Правда, я читал только, как его на новый алфавит настроить, а вот про использование расположения элементов не попадалось. Очень может быть, что плохо искал.

И не попадется. google tesseract layout analysis/recognition не дает особо много примеров. Если посмотреть как оно устроено, то на мой взгляд для случая чеков придется делать ручками. Это вообщем то не удивительно поскольку с научной точки зрения задача анализа схемы документа существенно более плохо решена чем задача распознавания.

neird
()
Ответ на: комментарий от hobbit

Я бы расчитывал больше на поумнение, а не написание. Хотя тут все зависит от того сколько времени потрачено.

В начале пути разработки систем, связанных с компьютерным зрением, граблей часто не видно, но обычно они есть и очень плотно рассыпаны.

Полезно почитать Постановка задачи компьютерного зрения, PassportVision.

neird
()
Ответ на: комментарий от Deleted

Да, спасибо за ссылку, в других источниках тоже упоминают связку OpenCV + Tesseract.

hobbit ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.