LINUX.ORG.RU

Системы оптического распознавания текста в Linux - обзор и сравнительное тестирование

 , , ,


0

5

В статье проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы. Вывод автора: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

>>> Подробности

★★★

Проверено: Shaman007 ()

Ответ на: комментарий от fractaler

Учитывая разность результатов, не они, а их использовали для проверки самого T3

AlexVR ★★★★★ ()
Ответ на: комментарий от fractaler

Собрал tesseract и был приятно удивлён качеством распознавания. В образце 2 ошибок при прочтении не нашёл. От удивления скачал и заставил работать tesseract-gui - кривенькая программа, пришлось поправить путь к данным и жёстко задать язык распознавания, так как активировать выбор языка в GUI мне не удалось.

Более скажу, я сейчас обучаю Tesseract для распознавания текстов XIX века, так он после первого же этапа, без словаря начал неплохо распознавать отсканированные тексты.

AlexVR ★★★★★ ()
Ответ на: комментарий от AlexVR

Да там вообще не про это 600dpi вляпали. Но да, наверное скорости сканирования современных МФУ/сканеров с 600dpi со временем выростут... на моём МФУ трёхлетней давности скорость в три раза меньше чем с 300dpi, про 200dpi и говорить нечего. В Оцифровка печатных текстов там тоже разошлись в мнениях насчёт DPI.

Кстати, про Tesseract. Он, оказывается, уже гугловский.

los_nikos ★★★★★ ()
Ответ на: комментарий от Ximen

> Тогда, думаю, станет ясно, что 149 евро за FineReader это не так уж и много.

Только с какого фига там ограничение на количество страниц?

Ну и ещё - _готовый_ ABBYY FineReader 10 Professional Edition под винду стоит почти в 2 раза дешевле (3590 руб. - версия для скачивания). Что тоже вызывает вопросы...

hobbit ★★★★★ ()
Ответ на: комментарий от praseodim

> Очень интересно где они в Linux сумели свой хитрый, необнуляемый счетчик сделать.

Да вычислить-то можно. Только противно. Не для того с винды уходили, чтобы опять кряки плодить. Лучше уж Tesseract развивать, раз у него твёрдое второе место.

hobbit ★★★★★ ()

tesseract - это такой генератор лучей поноса?

Minoru ★★★ ()

А XSane может с tesseract работать? А то у меня сейчас под рукой сканера нет, а без сканера оно не запускается...

fractaler ★★★★★ ()

Интересная и полезная статья. Для себя извлек пару идей на будущее: присмотреться внимательнее к tesseract-ocr и перечитать заново книгу «Война и мир». :)

Neksys ★★★ ()
Ответ на: комментарий от hobbit

> Ну и ещё - _готовый_ ABBYY FineReader 10 Professional Edition под винду стоит почти в 2 раза дешевле (3590 руб. - версия для скачивания). Что тоже вызывает вопросы...

Они в Abbyy не хотят, чтобы ты за 140 баксов или евро автоматизировал распознавание потока документов на предприятии. Или еще чего масштабное сделал. Отсюда и такие ограничения, потому что консольную утилиту можно приспособить для этих целей, а готовый виндовый FR - нет. Потому что у них для этих целей есть совсем другие решения, ценой раз в 50-100 поболее.

praseodim ★★★★★ ()
Ответ на: комментарий от hobbit

> Лучше уж Tesseract развивать, раз у него твёрдое второе место.

На самом деле я чувствую, что нужно более нормальное и масштабное исследование. Потому что 2-ое место у него на качественных документах, на документах с плохим качеством похоже рулит все-таки cuneiform.

И вообще тест стоит провести на реальных сканах, результаты могут отличаться.

praseodim ★★★★★ ()
Ответ на: комментарий от praseodim

> Отсюда и такие ограничения, потому что консольную утилиту можно приспособить для этих целей, а готовый виндовый FR - нет.

«Воттыблинскийгад» (c) - и готовый линуксовый FR (с окошками) за цену, сопоставимую с виндовой, тоже не хотят делать.

Сидят как собаки на сене, короче.

hobbit ★★★★★ ()

А вот мне интересно - неужели совсем-совсем никто не пробовал сделать на основе их движка GUI и продавать/распространять его?

hobbit ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.