LINUX.ORG.RU

Системы оптического распознавания текста в Linux - обзор и сравнительное тестирование

 , , ,


0

5

В статье проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы. Вывод автора: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

>>> Подробности

★★★

Проверено: Shaman007 ()

Ссылка на третий образец битая. А так не плохо, спасибо.

Ximen ★★★★ ()

Теперь нужно потестить с более сложным форматированием, таблицами и всем таким, и сравнить, как оно распознается. Тогда, думаю, станет ясно, что 149 евро за FineReader это не так уж и много.

Ximen ★★★★ ()

спасибо! очень полезный обзор

demoth ()
Ответ на: комментарий от libfun

Ну, нашли с чем сравнивать. finereader - проприетарный продукт и разрабатывается уже давно, а свободный cuneiform довольно молод.

Eddy_Em ☆☆☆☆☆ ()

Очень неплохой обзор.

Igron ★★★★★ ()

Не так давно надо было стихи распознать, так вот этот кунилингус куниформ отказался это деласть - строки сбивались в одну, и еще он тире упорно видел как ять.

anonymous ()
Ответ на: комментарий от Shtsh

Вряд ли. В свободной по понятным причинам огороженные алгоритмы использоваться не могут. А это сильно усложняет процесс разработки - получается, что не только «велосипедить» надо, так еще и следить, чтобы твой велосипед не был похож на что-нибудь из патентов...

Andaril

«User didn't care» (c)

Очень даже care: в n-й сумме баксов...

Eddy_Em ☆☆☆☆☆ ()

Не читал, но презираю подобные сравнения.

Лучше бы внесли свой вклад в обучение единственную живую ocr - tesseract.

cuneiform уже рип, смотрите changelog' и даты последних релизов

//кун

anonymous ()

> $ sudo chmod 777 /usr/local/share/tessdata/*.traineddat

Очень настораживает.

JackYF ★★★★ ()

В целом же - хороший обзор, спасибо, много названий я услышал в первый раз.

JackYF ★★★★ ()
Ответ на: комментарий от JackYF

Странно, что лептонику вообще «раскрутили» до включения в дебиановские репы... Я устанавливал из тарбола, да еще и pc-файл для pkg-config'а делал.

Кстати, в лептонике нет «законченных» средств распознавания текста. Только необходимое для этого.

Eddy_Em ☆☆☆☆☆ ()

Ваша новость не описывает будующий релиз какой-либо свободной программы и вообще ваша новость полезная и по этому она не подходит для ЛОРа

anonymous ()

напишите этим идьетам что они позор линукс комьюнити, кто там тусуется

r ★★★★★ ()
Ответ на: комментарий от r

>напишите этим идьетам что они позор линукс комьюнити, кто там тусуется

их там 390, но учитывая что у большинства пароли от аккаунта и мыла совпадают, а также что пароли вида «28342833» дешифруются на раз - то многие скоро останутся без е-мейлей)

Donnie_Darko ()
Ответ на: комментарий от FFSinit

Правильно, правильно... Этим запросом они очень хорошую дырку сделали :)

dpkg ★★★★ ()

Почему какой-то онлайн-сервис на движке tesseract получил больше очков, чем сам tesseract? Авторы не умеют его готовить?

Oreolek ()
Ответ на: комментарий от Eddy_Em

Вообще-то как раз наоборот: cuneiform разрабатывается существенно дольше.

nio-kun ()

Однобокий тест

Вместо засирания последней картинки, IMHO надо было подогнать фильтр для GIMP чтобы ее почистить. И потом уже тестировать. Собственно Abby просто хорошо очищает картинку, возможно блочным фильтром с определением размера символа и строки.

zyoung ()

По результатам «теста» говорить про отсутствие хороших систем оптического распознавания текста еще можно. Ибо не видно, как все эти системы справляются с сохранением форматирования - шрифты, абзацы, колонки, таблицы...

PS. В файнридер-то я верю, а вот остальные было бы интересно глянуть, как себя поведут.

aikr ()

Распознавание текста и распознавания документов - разные вещи.

Распознавание текста редко нужно. Надо еще вытаскивать контекст.

namezys ★★★★ ()
Ответ на: комментарий от aikr

По результатам «теста» говорить про отсутствие хороших систем оптического распознавания текста еще можно. Ибо не видно, как все эти системы справляются с сохранением форматирования - шрифты, абзацы, колонки, таблицы...

Сложно придумать адекватный тест, потому что разные программы форматируют исходный текст по-размому. Конечно, если ориентироваться на то, что всё набирается в ворде 2003, становится понятнее, но вряд ли это приемлемая постановка задачи.

Vudod ★★★★★ ()
Ответ на: комментарий от Ximen

>Теперь нужно потестить с более сложным форматированием, таблицами и всем таким, и сравнить, как оно распознается. Тогда, думаю, станет ясно, что 149 евро за FineReader это не так уж и много.

Не подскажете, где можно ознакомится со столь чудесными результатами работы этой замечательной программы за 149€? А то мне за последние *цать лет как ни попадётся распознанная книга со сложным (и не очень) форматированием, — хоть плачь!

Может просто не везёт, и мне попадаются исключительно цифровые копии изготовленные при помощи других OCR, стоимостью менее 149€, а то и вовсе бесплатных? Или я не не там их беру? А, где-то на закрытых ресурсах для особо избранных — хранятся великолепные цифровые фолианты, изготовленные исключительно в FineReader, и качеством ни в чём не уступающие оригиналу, а иногда даже и превосходящие последние?.

Так и хочется таким bookоделам травмы нанести. И ещё завели моду обрабатывать книги в ms word, и внедрять шрифты из виндовс… — за это хочется просто дать по квадратной, windowsобразной башке лопатой, совковой.

anonymous ()
Ответ на: комментарий от anonymous

использую Finerteader 6 Professional с бесплатно полученной лицензией.

доволен.

djenterprise ()
Ответ на: комментарий от anonymous

Не подскажете, где можно ознакомится со столь чудесными результатами работы этой замечательной программы за 149€?

Хз. Вроде, в статье приводилась ссылка на онлайн-сервис с этим движком. Может там?

Или я не не там их беру?

А я почём знаю, где вы их берёте? У меня с книжками проблем ноль, так что ничего на эту тему сказать не могу.

Так и хочется таким bookоделам травмы нанести.

Да сколько угодно. Я не против.

Ximen ★★★★ ()
Ответ на: комментарий от Vudod

а что там было полезного?

Finereader как всегда всех слил.

ну разве что free-ocr можно попробовать, там нет е..ли с регистрацией

djenterprise ()
Ответ на: комментарий от Eddy_Em

cuneiform сто лет в обед.

только девелоперы из команды давно сбежали

djenterprise ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.