Системы оптического распознавания текста в Linux - обзор и сравнительное тестирование

0

5

В статье проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы. Вывод автора: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

>>> Подробности

Ссылка

← 7-й номер журнала «Практика функционального программирования»

Использование XML и JSON с Android. Часть1 →

← 1 2 3 →

Ссылка на третий образец битая. А так не плохо, спасибо.

Ximen ★★★★
(13.04.11 22:26:32 MSK)

Ссылка

Теперь нужно потестить с более сложным форматированием, таблицами и всем таким, и сравнить, как оно распознается. Тогда, думаю, станет ясно, что 149 евро за FineReader это не так уж и много.

Ximen ★★★★
(13.04.11 22:31:00 MSK)

как я понял сложные многоэтажные формулы они распозновать не будут?

anonymous
(13.04.11 22:34:20 MSK)

Ответ на: комментарий от anonymous 13.04.11 22:34:20 MSK

А что, есть какие-то платные «распознавалки», которые могут сложные формулы распознать?

~~Eddy_Em~~ ☆☆☆☆☆
(13.04.11 22:38:12 MSK)

Кстати, cuneiform вполне прилично с текстами справляется.

~~Eddy_Em~~ ☆☆☆☆☆
(13.04.11 22:38:59 MSK)

Ответ на: комментарий от Eddy_Em 13.04.11 22:38:59 MSK

Зависит от. Всё относительно, и относительно finereader'a со сложными он справляется не очень.

libfun
(14.04.11 00:35:53 MSK)

спасибо! очень полезный обзор

demoth
(14.04.11 00:40:36 MSK)

Ссылка

Ответ на: комментарий от libfun 14.04.11 00:35:53 MSK

Ну, нашли с чем сравнивать. finereader - проприетарный продукт и разрабатывается уже давно, а свободный cuneiform довольно молод.

~~Eddy_Em~~ ☆☆☆☆☆
(14.04.11 00:47:56 MSK)

Всё таки хотелось бы посмотреть на третий (самы некачественный) образец.

vilisvir ★★★★★
(14.04.11 00:48:47 MSK)

Очень неплохой обзор.

Igron ★★★★★
(14.04.11 00:49:45 MSK)

Ссылка

Не так давно надо было стихи распознать, так вот этот ~~кунилингус~~ куниформ отказался это деласть - строки сбивались в одну, и еще он тире упорно видел как ять.

anonymous
(14.04.11 00:49:58 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.04.11 00:47:56 MSK

проприетарный cuneiform разрабатывается с начала 90х. То есть свободная версия — не то же самое?

Shtsh ★★★★
(14.04.11 00:50:41 MSK)

Ответ на: комментарий от Eddy_Em 14.04.11 00:47:56 MSK

«User didn't care» (c)

~~Andaril~~ ★
(14.04.11 00:51:37 MSK)

Ответ на: комментарий от Shtsh 14.04.11 00:50:41 MSK

Вряд ли. В свободной по понятным причинам огороженные алгоритмы использоваться не могут. А это сильно усложняет процесс разработки - получается, что не только «велосипедить» надо, так еще и следить, чтобы твой велосипед не был похож на что-нибудь из патентов...

Andaril
«User didn't care» (c)

Очень даже care: в n-й сумме баксов...

~~Eddy_Em~~ ☆☆☆☆☆
(14.04.11 00:57:18 MSK)

Ссылка

> $ sudo apt-get install leptonica-progs

$ sudo ldconfig

Зачем вторая строка?

JackYF ★★★★
(14.04.11 01:02:35 MSK)

Не читал, но презираю подобные сравнения.

Лучше бы внесли свой вклад в обучение единственную живую ocr - tesseract.

cuneiform уже рип, смотрите changelog' и даты последних релизов

//кун

anonymous
(14.04.11 01:04:41 MSK)

> $ sudo chmod 777 /usr/local/share/tessdata/*.traineddat

Очень настораживает.

JackYF ★★★★
(14.04.11 01:05:32 MSK)

Ссылка

В целом же - хороший обзор, спасибо, много названий я услышал в первый раз.

JackYF ★★★★
(14.04.11 01:08:11 MSK)

Ссылка

Ответ на: комментарий от JackYF 14.04.11 01:02:35 MSK

Странно, что лептонику вообще «раскрутили» до включения в дебиановские репы... Я устанавливал из тарбола, да еще и pc-файл для pkg-config'а делал.

Кстати, в лептонике нет «законченных» средств распознавания текста. Только необходимое для этого.

~~Eddy_Em~~ ☆☆☆☆☆
(14.04.11 01:10:22 MSK)

Ссылка

Ваша новость не описывает будующий релиз какой-либо свободной программы и вообще ваша новость полезная и по этому она не подходит для ЛОРа

anonymous
(14.04.11 01:12:32 MSK)

Ссылка

Ответ на: комментарий от vilisvir 14.04.11 00:48:47 MSK

brains on

http://rus-linux.net/MyLDP/office/OCR/images/150.jpg

anonymous
(14.04.11 02:10:14 MSK)

напишите этим идьетам что они позор линукс комьюнити, кто там тусуется

r ★★★★★
(14.04.11 02:24:29 MSK)

Ответ на: комментарий от r 14.04.11 02:24:29 MSK

>напишите этим идьетам что они позор линукс комьюнити, кто там тусуется

их там 390, но учитывая что у большинства пароли от аккаунта и мыла совпадают, а также что пароли вида «28342833» дешифруются на раз - то многие скоро останутся без е-мейлей)

~~Donnie_Darko~~
(14.04.11 02:31:36 MSK)

Ответ на: комментарий от Donnie_Darko 14.04.11 02:31:36 MSK

ну что тут сказать... trashcanmail.com и keepassx

frozenix ★★★
(14.04.11 02:39:58 MSK)

Ссылка

Ответ на: комментарий от Donnie_Darko 14.04.11 02:31:36 MSK

Я правильно понял, что их ошика была вот тут:

?name=/MyLDP/office/OCR/OCR_review.html

P.S. Базу схоронил.

FFSinit ★★
(14.04.11 03:12:23 MSK)

Ответ на: комментарий от FFSinit 14.04.11 03:12:23 MSK

Правильно, правильно... Этим запросом они очень хорошую дырку сделали :)

dpkg ★★★★
(14.04.11 03:26:20 MSK)

Ссылка

ТАКОЙ-ТО ВИН

nutz ★★
(14.04.11 04:24:55 MSK)

Ссылка

шикарно

wxw ★★★★★
(14.04.11 04:44:30 MSK)

Ссылка

Почему какой-то онлайн-сервис на движке tesseract получил больше очков, чем сам tesseract? Авторы не умеют его готовить?

Oreolek
(14.04.11 05:10:03 MSK)

Ответ на: комментарий от Eddy_Em 14.04.11 00:47:56 MSK

Вообще-то как раз наоборот: cuneiform разрабатывается существенно дольше.

nio-kun ★
(14.04.11 06:00:53 MSK)

Ссылка

Однобокий тест

Вместо засирания последней картинки, IMHO надо было подогнать фильтр для GIMP чтобы ее почистить. И потом уже тестировать. Собственно Abby просто хорошо очищает картинку, возможно блочным фильтром с определением размера символа и строки.

zyoung ★
(14.04.11 07:38:13 MSK)

По результатам «теста» говорить про отсутствие хороших систем оптического распознавания текста еще можно. Ибо не видно, как все эти системы справляются с сохранением форматирования - шрифты, абзацы, колонки, таблицы...

PS. В файнридер-то я верю, а вот остальные было бы интересно глянуть, как себя поведут.

aikr
(14.04.11 08:25:00 MSK)

кому то оно еще надо ?

iomould
(14.04.11 09:15:41 MSK)

Ссылка

Распознавание текста и распознавания документов - разные вещи.

Распознавание текста редко нужно. Надо еще вытаскивать контекст.

namezys ★★★★
(14.04.11 09:17:36 MSK)

Ответ на: Однобокий тест от zyoung 14.04.11 07:38:13 MSK

ABBYY делает это сам - а вы предлагаете руками очищать

namezys ★★★★
(14.04.11 09:18:23 MSK)

Ссылка

Спасибо за обзор! Действительно полезно.

Vudod ★★★★★
(14.04.11 09:44:14 MSK)

Ответ на: комментарий от aikr 14.04.11 08:25:00 MSK

По результатам «теста» говорить про отсутствие хороших систем оптического распознавания текста еще можно. Ибо не видно, как все эти системы справляются с сохранением форматирования - шрифты, абзацы, колонки, таблицы...

Сложно придумать адекватный тест, потому что разные программы форматируют исходный текст по-размому. Конечно, если ориентироваться на то, что всё набирается в ворде 2003, становится понятнее, но вряд ли это приемлемая постановка задачи.

Vudod ★★★★★
(14.04.11 09:47:08 MSK)

Ответ на: комментарий от Ximen 13.04.11 22:31:00 MSK

>Теперь нужно потестить с более сложным форматированием, таблицами и всем таким, и сравнить, как оно распознается. Тогда, думаю, станет ясно, что 149 евро за FineReader это не так уж и много.

Не подскажете, где можно ознакомится со столь чудесными результатами работы этой замечательной программы за 149€? А то мне за последние *цать лет как ни попадётся распознанная книга со сложным (и не очень) форматированием, — хоть плачь!

Может просто не везёт, и мне попадаются исключительно цифровые копии изготовленные при помощи других OCR, стоимостью менее 149€, а то и вовсе бесплатных? Или я не не там их беру? А, где-то на закрытых ресурсах для особо избранных — хранятся великолепные цифровые фолианты, изготовленные исключительно в FineReader, и качеством ни в чём не уступающие оригиналу, а иногда даже и превосходящие последние?.

Так и хочется таким bookоделам травмы нанести. И ещё завели моду обрабатывать книги в ms word, и внедрять шрифты из виндовс… — за это хочется просто дать по квадратной, windowsобразной башке лопатой, совковой.

anonymous
(14.04.11 10:15:55 MSK)