Системы оптического распознавания текста в Linux - обзор и сравнительное тестирование

0

5

В статье проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы. Вывод автора: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

>>> Подробности

Ссылка

← 7-й номер журнала «Практика функционального программирования»

Использование XML и JSON с Android. Часть1 →

← 1 2 3 →

Ответ на: комментарий от Vudod 14.04.11 09:47:08 MSK

Да просто взять несколько страниц из книг, газет и журналов и глянуть, у кого будет самый близкий к оригиналу результат. Распознавание на цветном фоне тоже неплохо бы потестировать, это как раз в журналах часто встречается.

aikr
(14.04.11 11:01:11 MSK)

«Полная версия программы стоит 149 евро, при этом количество распознаваемых страниц ограничено величиной 12000 в год.» - Закопать и забыть место погребения... ональный зонд со счетчиком сводит на нет все достижения ABBYY.

segfault ★★★★★
(14.04.11 11:03:47 MSK)

Ответ на: комментарий от Ximen 14.04.11 10:25:54 MSK

> Хз. Вроде, в статье приводилась ссылка на онлайн-сервис с этим движком. Может там?

FineReader и FineReader Engine - разные вещи

namezys ★★★★
(14.04.11 11:17:11 MSK)

Ответ на: комментарий от psv1967 14.04.11 10:36:40 MSK

>> Надо еще вытаскивать контекст.

ну для этого не оцр программа нужна

Да ладно. Хотя если подходить формально, то да. Но ведь у нас цель - получить не только текст. А форматирование, отделить колонтитулы, определить, где ссылки и тд.- а это уже контекст

namezys ★★★★
(14.04.11 11:18:48 MSK)

Ссылка

Ответ на: комментарий от segfault 14.04.11 11:03:47 MSK

У ABBYY очерь различные лицензии. Выбирайте любую

namezys ★★★★
(14.04.11 11:19:17 MSK)

Ссылка

>Минимальный пакет стоит 3$ за 20 страниц

в век компьютерных технологий за 20 вонючих страниц 3 бакса, шош вы жадные такие, за 3 бакса можно студента нанять шоб распознал :)

alt0v14 ★★★
(14.04.11 11:26:05 MSK)

Ссылка

вобще статейка неплохая, всю не читал но в одном месте собрать инфу о разных продуктах это хорошо

alt0v14 ★★★
(14.04.11 11:32:25 MSK)

Ссылка

Ответ на: комментарий от aikr 14.04.11 11:01:11 MSK

Да просто взять несколько страниц из книг, газет и журналов и глянуть, у кого будет самый близкий к оригиналу результат. Распознавание на цветном фоне тоже неплохо бы потестировать, это как раз в журналах часто встречается.

Можно, но нужно очень чётко выработать критерий близости. Ясно, что жирный шрифт должен быть жирным, шрифт без засечек и наклонный должны выделяться, но как только мы начинаем выбирать гарнитуру, уже становится сложно. Дальше, там наверняка есть разные рамочки, горизонтальные и вертикальные линии, рисунки, возможно, даже графики. Как оценивать точность их воспроизведения? В какой формат интегрировать результат (чтобы он поддерживал всё это форматирование) --- ODF?

В общем, я не утверждаю, что подобный тест можно составить, но дело это хлопотное и, вполне возможно, бестолковое.

Vudod ★★★★★
(14.04.11 11:45:53 MSK)

Ответ на: комментарий от namezys 14.04.11 11:17:11 MSK

FineReader и FineReader Engine - разные вещи

Да, видимо так. Ну тогда точно хз.

Ximen ★★★★
(14.04.11 11:52:46 MSK)

Ссылка

Ну что, ocrodjvu теперь нужен? :)

los_nikos ★★★★★
(14.04.11 11:55:52 MSK)

Ссылка

Cuneiform-Refactoring

Сергей Полтавский серьёзно пилит этот кьюниформ и Qt-морду для него quneiform:

вот тут
https://code.launchpad.net/~serge-uliss/cuneiform-linux/refactoring
и тут
https://code.launchpad.net/~serge-uliss/cuneiform-linux/gui

Кто плачет, что что-то не так и недостаточно хорошо - вперёд, с песней, ему помогать.

Да, deb-ы этого дела можно взять у notesalexp. Оно, конечно, иногда выпадает в кору неожиданно (я про гуй), но уже работает.

gregg128
(14.04.11 11:57:36 MSK)

Ссылка

Добавлю, что у gocr достаточно хороший уровень распознавания англ. текста. Код же гокра ужасен - чтобы добавить поддержку нового языка надо фактически переписать полностью программу

bik ★★
(14.04.11 12:16:27 MSK)

Ссылка

Интересная статья с большим количеством полезной информации.

argin ★★★★★
(14.04.11 12:23:50 MSK)

Ответ на: комментарий от Eddy_Em 13.04.11 22:38:12 MSK

InftyReader

anonymous
(14.04.11 13:08:59 MSK)

Ответ на: комментарий от Pinkbyte 14.04.11 10:23:14 MSK

Это вообще Линус сказал

~~Andaril~~ ★
(14.04.11 13:09:26 MSK)

Ответ на: комментарий от argin 14.04.11 12:23:50 MSK

Да? Я вот кроме Cuneiform давно ничего интересного не видел. Ну да, проект Ocrad опять зашевелился, но где он в сводной таблице тестирования? А в итоге выиграл FineReader, который и не свободный вовсе. Поэтому мой выбор - Cuneiform.

los_nikos ★★★★★
(14.04.11 13:16:23 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.04.11 13:08:59 MSK

Сомневаюсь. Если он действительно работает, то там должен быть такой алгоритм распознавания, что стоимость программы будет не меньше десятка-другого килобаксов...

~~Eddy_Em~~ ☆☆☆☆☆
(14.04.11 13:23:53 MSK)

Ответ на: комментарий от segfault 14.04.11 11:03:47 MSK

> Закопать и забыть место погребения... ональный зонд со счетчиком сводит на нет все достижения ABBYY.

Очень интересно где они в Linux сумели свой хитрый, необнуляемый счетчик сделать. А то напрашивается diff /home до установки и после с последующим patch-ем как оно переполнится. Даже если они замастырили сервис, который что-то куда-то пихает с правами root, дык все равно на раз вычисляется. Это вам не виндовсь, хотя и там можно.

praseodim ★★★★★
(14.04.11 13:56:02 MSK)

Кстати, там в тексте третьего образца резкость ни к чёрту. После экспорта из JPEG в PBM получается тот ещё раритет - сам не могу прочитать что написано.

los_nikos ★★★★★
(14.04.11 13:57:35 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.04.11 13:23:53 MSK

Дело даже не в том работает или нет, а в том что цена ошибки в формуле намного выше, чем в печатном тексте. Потому что печатный текст информационно сильно избыточен и обычно можно восстановить текст даже после серьезных опечаток. Чего не скажешь про формулы.

praseodim ★★★★★
(14.04.11 13:59:51 MSK)

Ответ на: комментарий от Eddy_Em 14.04.11 13:23:53 MSK

Пробовал. Работает. Стоит 180 долларов за установку на два компьютера. Ограничение: кириллицу не распознаёт. Но мне и не нужно.

anonymous
(14.04.11 14:00:17 MSK)

Ссылка

Ответ на: комментарий от praseodim 14.04.11 13:59:51 MSK

Справедливости ради, восстановить текст после ошибки распознавания в цифре весьма трудно. Поэтому довод несостоятелен.

InftyReader сохраняет в формате LaTeX, поэтому внести исправления не составляет труда.

anonymous
(14.04.11 14:03:48 MSK)

Ответ на: комментарий от praseodim 14.04.11 13:56:02 MSK

Очистить ты можешь счетчик. Только зачем тебе это надо?

namezys ★★★★
(14.04.11 14:09:06 MSK)

Ответ на: комментарий от anonymous 14.04.11 14:03:48 MSK

Процесс верификации данных сложнее

namezys ★★★★
(14.04.11 14:10:02 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.04.11 00:47:56 MSK

>Ну, нашли с чем сравнивать... , а ,,, довольно молод.
Это не аргумент :)

Основная масса работы по качеству - соотв. обучение.
и к версиям ПО (читаем - молодости / старости) оно имеет, прямо скажем, небольшое отношение.

Так что, если распознает коряво или хорошо - с возрастом системы данный фактор будет меняться незначительно.

yaws ★
(14.04.11 14:23:35 MSK)

Ответ на: комментарий от Andaril 14.04.11 13:09:26 MSK

ну так я ж не против. я просто привел соответствие его фразы с русской реальностью )))

Pinkbyte ★★★★★
(14.04.11 14:24:03 MSK)

Ссылка

Ответ на: комментарий от yaws 14.04.11 14:23:35 MSK

Патенты - самые главные палки в колеса свободных OCR.

~~Eddy_Em~~ ☆☆☆☆☆
(14.04.11 14:33:11 MSK)

>В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

4.2 Кроме платного онлайн файнридера (ну или консольного файнридера) всё остальное полный шлак уровня конца 90-х годов. А Гуи у этих программ это и вовсе «привет 80-е».

Polugnom ★★★★★
(14.04.11 14:36:49 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.04.11 14:33:11 MSK

Не надо в этой области петь про патенты.

yaws ★
(14.04.11 14:44:21 MSK)

Ответ на: комментарий от yaws 14.04.11 14:44:21 MSK

Как не надо: в области распознавания изображений вообще работа - как хождение по минному полю: куда ни плюнь, все огорожено патентами...

~~Eddy_Em~~ ☆☆☆☆☆
(14.04.11 14:48:54 MSK)

Ответ на: комментарий от Vudod 14.04.11 11:45:53 MSK

Ну, шрифты, как правило, большей частью стандартные везде применяются. Распознавать готический шрифт не так уж часто нужно. :)
А рамочки, рисунки и графики распознавалка должна отрабатывать. Хотя бы как изображения.

Формат - можно odf, можно тот же docx (хотя лучше не надо, вспоминая как ОО с ним работает).
HTML, на худой конец (хотя это уже из области извращений).

aikr
(14.04.11 15:18:21 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.04.11 14:48:54 MSK

Ну так что же ты медлишь с приведением примера патента, огораживающего качество распознавания?

yaws ★
(14.04.11 15:28:12 MSK)

Интересная статья с большим количеством полезной информации.

argin ★★★★★
(14.04.11 15:36:34 MSK)

Ссылка

Ответ на: комментарий от yaws 14.04.11 15:28:12 MSK

Погугли, подобных патентов полным-полно.

~~Eddy_Em~~ ☆☆☆☆☆
(14.04.11 15:37:42 MSK)

Ответ на: комментарий от namezys 14.04.11 14:09:06 MSK

> Очистить ты можешь счетчик. Только зачем тебе это надо?

Ну типа на случай проверок всяких, одно дело если 100% пиратка и совсем другое, если где-то какой-то счетчик иногда правится. Возможно даже как бы и не нарочно путем бэкапа.

Доказать подобное нарушение не очень просто, хотя и можно, если чисто по объемам прикинуть. Смысл возиться со счетчиком может иметься у госпредприятия, если не дают денег на нормальную версию, а обрабатывать большой массив документов нужно. У остальных при таких объемах работы найдутся и деньги.

Вообще, смысл подобных ограничений от Abbyy в том, что у них есть очень дорогие продукты для автоматизации работы. FineReader Engine и Recognition Server и они всячески препятствуют тому, чтобы обычные версии FR могли быть использованы для автоматической обработки больших массивов. У виндовой GUI версии кажется нет ограничения на количество распознаваемых страниц, но и автоматически с ней не очень-то поработаешь даже с помощью разных утилит GUI-автоматизации.

Кроме того они нарочно закрывают рабочий формат распознавания в котором хранится разная служебная инфа, включая координаты символов и на базе которых можно было бы сделать экспорт в нужный формат, например, для OCR-слоя djvu или еще чего. Хотя и расковыривали в 8-ой версии, но в новых пока вроде не добились.

praseodim ★★★★★
(14.04.11 16:06:15 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.04.11 14:03:48 MSK

Да с цифрами тоже сложно, я забыл об этом. Можно считать цифры в документе частным случаем формулы и примером куда больших проблем при распознавании формул.

InftyReader сохраняет в формате LaTeX, поэтому внести исправления не составляет труда.

Так смысл в том, чтобы знать что вносить.

praseodim ★★★★★
(14.04.11 16:09:27 MSK)

Ссылка

Интересная статья с большим количеством полезной информации.

argin ★★★★★
(14.04.11 16:45:05 MSK)

Вот чорд. то ли связь глючит, то ли движок форума. У меня сообщение всё время висело как не отправленное. Да и в последний раз тоже не отправилось, просто я догадался проверить обсуждение

argin ★★★★★
(14.04.11 16:47:39 MSK)

Ответ на: комментарий от argin 14.04.11 16:45:05 MSK

> Интересная статья с большим количеством полезной информации.

Статья хорошая, но зачем это три раза постить?

~~JustGuest~~ ★
(14.04.11 16:49:51 MSK)

Ссылка

Ответ на: комментарий от argin 14.04.11 16:47:39 MSK

> Вот чорд. то ли связь глючит, то ли движок форума.

Дык почисть дубли.

~~JustGuest~~ ★
(14.04.11 16:51:53 MSK)

Ответ на: комментарий от Eddy_Em 14.04.11 15:37:42 MSK

«OCR image preprocessing method»

Мимо. Содержимое патента описывает способ улучшения качества изображений для последующего распознавания. Каким боком оно относится, собственно, к качеству распознавания (т.е. нейросети, шаблоны, оригинальные методики обучения систем и т.п.)?

yaws ★
(14.04.11 17:26:56 MSK)

Ссылка

Ответ на: комментарий от yaws 14.04.11 14:23:35 MSK

> Так что, если распознает коряво или хорошо - с возрастом системы данный фактор будет меняться незначительно.

Это просто ИМХО. Если пилить именно алгоритмы распознавания, а не UI и алгоритмы форматирования распознанного текста и т.п., будет профит. Проверено.

segfault ★★★★★
(14.04.11 18:45:36 MSK)

Ссылка

А cuneiform уже можно использовать в реальной жизни, в которой есть форматирование?

Minoru ★★★
(14.04.11 20:26:13 MSK)

Отвратительный обзор

Что так в лом распечатать и отсканировать?

Учитывая что большинство свободных систем пока заточены на 600-300 dpi, то на них и нужно тестировать. В особенности накладывание фильтров, если хочется выпендриться.

З.Ы.: Tesseract рулит, но вот где тренировочные данные используемые Google Docs и Free OCR для него? А то поставляемые с T3 заточены только под большие разрешения.

AlexVR ★★★★★
(14.04.11 20:26:20 MSK)

Ответ на: Отвратительный обзор от AlexVR 14.04.11 20:26:20 MSK

Вы что-то путаете, в основном OCR используют 200 или 300 dpi. Больше там и не желательно. Хотя если вам так хочется тратить чернила на 600dpi чтобы быть круче яйца^W^W^Wпотом сканировать 600dpi...

Обзор и правда фигня, лучше уж посмотреть этот и этот и поиграться с cuneiform и tesseract отсюда чем смотреть всякую кривую проприетарщину. Ну поставте FineReader если хочется, но остальное-то зачем? Для чего?

los_nikos ★★★★★
(14.04.11 21:02:33 MSK)

О, tesseract жив и даже неплох! Я как-то давно думал, что он совсем рип. Радует, очень радует.
Cuneiform использовал недавно. Для обычного текста у него вполне приемлемое качество. Жаль, что развивается очень медленно и иногда.

fractaler ★★★★★
(14.04.11 21:19:45 MSK)

Ссылка

Ответ на: комментарий от Minoru 14.04.11 20:26:13 MSK

я ниже уже кидал ссылку на ocrodjvu, но ты ведь просто так сказал... читать ответы не будешь.

los_nikos ★★★★★
(14.04.11 21:26:37 MSK)

Ссылка

Ответ на: комментарий от los_nikos 14.04.11 21:02:33 MSK

По первой же ссылке в скрипте устанавливается 600dpi. И да про 300dpi я то же говорил, но для того же Tesseract 10pt*300dpi - считается нижней разумной границей.

AlexVR ★★★★★
(14.04.11 22:36:21 MSK)

Собрал tesseract и был приятно удивлён качеством распознавания. В образце 2 ошибок при прочтении не нашёл. От удивления скачал и заставил работать tesseract-gui - кривенькая программа, пришлось поправить путь к данным и жёстко задать язык распознавания, так как активировать выбор языка в GUI мне не удалось.

fractaler ★★★★★
(14.04.11 22:42:41 MSK)

Ответ на: Отвратительный обзор от AlexVR 14.04.11 20:26:20 MSK

>Tesseract рулит, но вот где тренировочные данные используемые Google Docs и Free OCR для него?
Так вот же:
http://code.google.com/p/tesseract-ocr/downloads/list

fractaler ★★★★★
(14.04.11 22:45:11 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← 7-й номер журнала «Практика функционального программирования»

Open Source

Использование XML и JSON с Android. Часть1 →

Cuneiform-Refactoring

Отвратительный обзор

Похожие темы