LINUX.ORG.RU

Системы оптического распознавания текста в Linux - обзор и сравнительное тестирование

 , , ,


0

5

В статье проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы. Вывод автора: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

>>> Подробности

★★★

Проверено: Shaman007 ()

Ответ на: комментарий от Vudod

Да просто взять несколько страниц из книг, газет и журналов и глянуть, у кого будет самый близкий к оригиналу результат. Распознавание на цветном фоне тоже неплохо бы потестировать, это как раз в журналах часто встречается.

aikr ()

«Полная версия программы стоит 149 евро, при этом количество распознаваемых страниц ограничено величиной 12000 в год.» - Закопать и забыть место погребения... ональный зонд со счетчиком сводит на нет все достижения ABBYY.

segfault ★★★★★ ()
Ответ на: комментарий от Ximen

> Хз. Вроде, в статье приводилась ссылка на онлайн-сервис с этим движком. Может там?

FineReader и FineReader Engine - разные вещи

namezys ★★★★ ()
Ответ на: комментарий от psv1967

>> Надо еще вытаскивать контекст.

ну для этого не оцр программа нужна

Да ладно. Хотя если подходить формально, то да. Но ведь у нас цель - получить не только текст. А форматирование, отделить колонтитулы, определить, где ссылки и тд.- а это уже контекст

namezys ★★★★ ()
Ответ на: комментарий от segfault

У ABBYY очерь различные лицензии. Выбирайте любую

namezys ★★★★ ()

>Минимальный пакет стоит 3$ за 20 страниц

в век компьютерных технологий за 20 вонючих страниц 3 бакса, шош вы жадные такие, за 3 бакса можно студента нанять шоб распознал :)

alt0v14 ★★★ ()

вобще статейка неплохая, всю не читал но в одном месте собрать инфу о разных продуктах это хорошо

alt0v14 ★★★ ()
Ответ на: комментарий от aikr

Да просто взять несколько страниц из книг, газет и журналов и глянуть, у кого будет самый близкий к оригиналу результат. Распознавание на цветном фоне тоже неплохо бы потестировать, это как раз в журналах часто встречается.

Можно, но нужно очень чётко выработать критерий близости. Ясно, что жирный шрифт должен быть жирным, шрифт без засечек и наклонный должны выделяться, но как только мы начинаем выбирать гарнитуру, уже становится сложно. Дальше, там наверняка есть разные рамочки, горизонтальные и вертикальные линии, рисунки, возможно, даже графики. Как оценивать точность их воспроизведения? В какой формат интегрировать результат (чтобы он поддерживал всё это форматирование) --- ODF?

В общем, я не утверждаю, что подобный тест можно составить, но дело это хлопотное и, вполне возможно, бестолковое.

Vudod ★★★★★ ()
Ответ на: комментарий от namezys

FineReader и FineReader Engine - разные вещи

Да, видимо так. Ну тогда точно хз.

Ximen ★★★★ ()

Cuneiform-Refactoring

Сергей Полтавский серьёзно пилит этот кьюниформ и Qt-морду для него quneiform:

вот тут
https://code.launchpad.net/~serge-uliss/cuneiform-linux/refactoring
и тут
https://code.launchpad.net/~serge-uliss/cuneiform-linux/gui

Кто плачет, что что-то не так и недостаточно хорошо - вперёд, с песней, ему помогать.

Да, deb-ы этого дела можно взять у notesalexp. Оно, конечно, иногда выпадает в кору неожиданно (я про гуй), но уже работает.

gregg128 ()

Добавлю, что у gocr достаточно хороший уровень распознавания англ. текста. Код же гокра ужасен - чтобы добавить поддержку нового языка надо фактически переписать полностью программу

bik ★★ ()
Ответ на: комментарий от argin

Да? Я вот кроме Cuneiform давно ничего интересного не видел. Ну да, проект Ocrad опять зашевелился, но где он в сводной таблице тестирования? А в итоге выиграл FineReader, который и не свободный вовсе. Поэтому мой выбор - Cuneiform.

los_nikos ★★★★★ ()
Ответ на: комментарий от anonymous

Сомневаюсь. Если он действительно работает, то там должен быть такой алгоритм распознавания, что стоимость программы будет не меньше десятка-другого килобаксов...

Eddy_Em ☆☆☆☆☆ ()
Ответ на: комментарий от segfault

> Закопать и забыть место погребения... ональный зонд со счетчиком сводит на нет все достижения ABBYY.

Очень интересно где они в Linux сумели свой хитрый, необнуляемый счетчик сделать. А то напрашивается diff /home до установки и после с последующим patch-ем как оно переполнится. Даже если они замастырили сервис, который что-то куда-то пихает с правами root, дык все равно на раз вычисляется. Это вам не виндовсь, хотя и там можно.

praseodim ★★★★★ ()

Кстати, там в тексте третьего образца резкость ни к чёрту. После экспорта из JPEG в PBM получается тот ещё раритет - сам не могу прочитать что написано.

los_nikos ★★★★★ ()
Ответ на: комментарий от Eddy_Em

Дело даже не в том работает или нет, а в том что цена ошибки в формуле намного выше, чем в печатном тексте. Потому что печатный текст информационно сильно избыточен и обычно можно восстановить текст даже после серьезных опечаток. Чего не скажешь про формулы.

praseodim ★★★★★ ()
Ответ на: комментарий от Eddy_Em

Пробовал. Работает. Стоит 180 долларов за установку на два компьютера. Ограничение: кириллицу не распознаёт. Но мне и не нужно.

anonymous ()
Ответ на: комментарий от praseodim

Справедливости ради, восстановить текст после ошибки распознавания в цифре весьма трудно. Поэтому довод несостоятелен.

InftyReader сохраняет в формате LaTeX, поэтому внести исправления не составляет труда.

anonymous ()
Ответ на: комментарий от Eddy_Em

>Ну, нашли с чем сравнивать... , а ,,, довольно молод.
Это не аргумент :)

Основная масса работы по качеству - соотв. обучение.
и к версиям ПО (читаем - молодости / старости) оно имеет, прямо скажем, небольшое отношение.

Так что, если распознает коряво или хорошо - с возрастом системы данный фактор будет меняться незначительно.

yaws ()
Ответ на: комментарий от Andaril

ну так я ж не против. я просто привел соответствие его фразы с русской реальностью )))

Pinkbyte ★★★★★ ()

>В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

4.2 Кроме платного онлайн файнридера (ну или консольного файнридера) всё остальное полный шлак уровня конца 90-х годов. А Гуи у этих программ это и вовсе «привет 80-е».

Polugnom ★★★★★ ()
Ответ на: комментарий от yaws

Как не надо: в области распознавания изображений вообще работа - как хождение по минному полю: куда ни плюнь, все огорожено патентами...

Eddy_Em ☆☆☆☆☆ ()
Ответ на: комментарий от Vudod

Ну, шрифты, как правило, большей частью стандартные везде применяются. Распознавать готический шрифт не так уж часто нужно. :)
А рамочки, рисунки и графики распознавалка должна отрабатывать. Хотя бы как изображения.

Формат - можно odf, можно тот же docx (хотя лучше не надо, вспоминая как ОО с ним работает).
HTML, на худой конец (хотя это уже из области извращений).

aikr ()

Интересная статья с большим количеством полезной информации.

argin ★★★★★ ()
Ответ на: комментарий от namezys

> Очистить ты можешь счетчик. Только зачем тебе это надо?

Ну типа на случай проверок всяких, одно дело если 100% пиратка и совсем другое, если где-то какой-то счетчик иногда правится. Возможно даже как бы и не нарочно путем бэкапа.

Доказать подобное нарушение не очень просто, хотя и можно, если чисто по объемам прикинуть. Смысл возиться со счетчиком может иметься у госпредприятия, если не дают денег на нормальную версию, а обрабатывать большой массив документов нужно. У остальных при таких объемах работы найдутся и деньги.

Вообще, смысл подобных ограничений от Abbyy в том, что у них есть очень дорогие продукты для автоматизации работы. FineReader Engine и Recognition Server и они всячески препятствуют тому, чтобы обычные версии FR могли быть использованы для автоматической обработки больших массивов. У виндовой GUI версии кажется нет ограничения на количество распознаваемых страниц, но и автоматически с ней не очень-то поработаешь даже с помощью разных утилит GUI-автоматизации.

Кроме того они нарочно закрывают рабочий формат распознавания в котором хранится разная служебная инфа, включая координаты символов и на базе которых можно было бы сделать экспорт в нужный формат, например, для OCR-слоя djvu или еще чего. Хотя и расковыривали в 8-ой версии, но в новых пока вроде не добились.

praseodim ★★★★★ ()
Ответ на: комментарий от anonymous

Да с цифрами тоже сложно, я забыл об этом. Можно считать цифры в документе частным случаем формулы и примером куда больших проблем при распознавании формул.

InftyReader сохраняет в формате LaTeX, поэтому внести исправления не составляет труда.

Так смысл в том, чтобы знать что вносить.

praseodim ★★★★★ ()

Вот чорд. то ли связь глючит, то ли движок форума. У меня сообщение всё время висело как не отправленное. Да и в последний раз тоже не отправилось, просто я догадался проверить обсуждение

argin ★★★★★ ()
Ответ на: комментарий от argin

> Интересная статья с большим количеством полезной информации.

Статья хорошая, но зачем это три раза постить?

JustGuest ()
Ответ на: комментарий от Eddy_Em

«OCR image preprocessing method»

Мимо. Содержимое патента описывает способ улучшения качества изображений для последующего распознавания. Каким боком оно относится, собственно, к качеству распознавания (т.е. нейросети, шаблоны, оригинальные методики обучения систем и т.п.)?

yaws ()
Ответ на: комментарий от yaws

> Так что, если распознает коряво или хорошо - с возрастом системы данный фактор будет меняться незначительно.

Это просто ИМХО. Если пилить именно алгоритмы распознавания, а не UI и алгоритмы форматирования распознанного текста и т.п., будет профит. Проверено.

segfault ★★★★★ ()

Отвратительный обзор

Что так в лом распечатать и отсканировать?

Учитывая что большинство свободных систем пока заточены на 600-300 dpi, то на них и нужно тестировать. В особенности накладывание фильтров, если хочется выпендриться.

З.Ы.: Tesseract рулит, но вот где тренировочные данные используемые Google Docs и Free OCR для него? А то поставляемые с T3 заточены только под большие разрешения.

AlexVR ★★★★★ ()
Ответ на: Отвратительный обзор от AlexVR

Вы что-то путаете, в основном OCR используют 200 или 300 dpi. Больше там и не желательно. Хотя если вам так хочется тратить чернила на 600dpi чтобы быть круче яйца^W^W^Wпотом сканировать 600dpi...

Обзор и правда фигня, лучше уж посмотреть этот и этот и поиграться с cuneiform и tesseract отсюда чем смотреть всякую кривую проприетарщину. Ну поставте FineReader если хочется, но остальное-то зачем? Для чего?

los_nikos ★★★★★ ()

О, tesseract жив и даже неплох! Я как-то давно думал, что он совсем рип. Радует, очень радует.
Cuneiform использовал недавно. Для обычного текста у него вполне приемлемое качество. Жаль, что развивается очень медленно и иногда.

fractaler ★★★★★ ()
Ответ на: комментарий от Minoru

я ниже уже кидал ссылку на ocrodjvu, но ты ведь просто так сказал... читать ответы не будешь.

los_nikos ★★★★★ ()
Ответ на: комментарий от los_nikos

По первой же ссылке в скрипте устанавливается 600dpi. И да про 300dpi я то же говорил, но для того же Tesseract 10pt*300dpi - считается нижней разумной границей.

AlexVR ★★★★★ ()

Собрал tesseract и был приятно удивлён качеством распознавания. В образце 2 ошибок при прочтении не нашёл. От удивления скачал и заставил работать tesseract-gui - кривенькая программа, пришлось поправить путь к данным и жёстко задать язык распознавания, так как активировать выбор языка в GUI мне не удалось.

fractaler ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.