Библиотека для распознавания текста по шаблонам

0

1

Идея такая: есть документ / форма, в которой часть текста - малоинформативная и используется только для точного позиционирования. А другая часть - содержательная, должна преобразовываться в структурные единицы на выходе.

Пример практического применения - сканирование чеков из магазинов. Вот например, FinPix (проприетарное, под Андроид) явно использует что-то подобное. Я пробовал, кстати, довольно неплохо распознаёт, только медленно. А есть опенсорсные библиотеки, которыми можно решить такую задачу?

Ссылка

← Аутентификация в apache cxf + wildfly

send raw socket. bug или нет ? →

tesseract?

anonymous
(28.09.16 04:05:38 MSK)

Ссылка

Распознование содержательной части через tesseract (это самое вменяемое что есть), и вероятно с дообучением под конкретные шрифты.

А вот анализ документа на предмет выдирания этой содержательной части очень вероятно придется делать руками.

В последних tesseract конечно layout analysis есть, но есть сильное подозрение что для 'документов' где относительно мало текста и много разметки (типа чеков) это не подойдет.

neird
(28.09.16 04:46:41 MSK)

плюсану tesseract

Rastafarra ★★★★
(28.09.16 10:36:33 MSK)

Ссылка

Ответ на: комментарий от neird 28.09.16 04:46:41 MSK

В последних tesseract конечно layout analysis есть

Спасибо за ключевые слова, возможно, удастся найти, как этот самый layout analysis заставить работать. Собственно, во всех обзорах, что я читал, tesseract и называется самой вменяемой опенсорсной OCR. Правда, я читал только, как его на новый алфавит настроить, а вот про использование расположения элементов не попадалось. Очень может быть, что плохо искал.

но есть сильное подозрение что для 'документов' где относительно мало текста и много разметки (типа чеков) это не подойдет.

Ну собственно, «разметка», которую я имел в виду, тоже большей частью текстовая...

hobbit ★★★★★
(28.09.16 21:07:03 MSK) автор топика

Ответ на: комментарий от hobbit 28.09.16 21:07:03 MSK

Спасибо за ключевые слова, возможно, удастся найти, как этот самый layout analysis заставить работать. Собственно, во всех обзорах, что я читал, tesseract и называется самой вменяемой опенсорсной OCR. Правда, я читал только, как его на новый алфавит настроить, а вот про использование расположения элементов не попадалось. Очень может быть, что плохо искал.

И не попадется. google tesseract layout analysis/recognition не дает особо много примеров. Если посмотреть как оно устроено, то на мой взгляд для случая чеков придется делать ручками. Это вообщем то не удивительно поскольку с научной точки зрения задача анализа схемы документа существенно более плохо решена чем задача распознавания.

neird
(28.09.16 21:59:19 MSK)