LINUX.ORG.RU
 

Вышел OCRopus 0.1.0


0

0

OCRopus, это попытка от Google создать OCR-систему на базе не так давно открытого распознающего ядра - tesseract. В состав OCRopus входит собственно tesseract, GUI и интерфейс автоматизации и конфигурирования на основе Lua.

Из улучшений (не считая то. что это, в общем, первый релиз этой программы):

* Разделение входного изображения на текст и графику
* Улучшения в алгоритмах распознавания
* Новая статистическая модель языка
* Улучшенный вывод в собственном формате hOCR

и т.п.

Так дело пойдет, и Abbyy придется потесниться :)

Страница проекта

>>> Подробности


[#]  
GFORGX

Re: Вышел OCRopus 0.1.0

Отличная новость! Пошёл качать! Слава HP и Google!

**# ()
[#]  
GFORGX

Re: Вышел OCRopus 0.1.0

Hmm... Не нашёл ссылку для загрузки. Ткните...

**# ()
[#]  
Lockywolf

Re: Вышел OCRopus 0.1.0

Хммм... Укропчик....

*** ()
[#]  
AiFiLTr0

Re: Вышел OCRopus 0.1.0

Да, кстати там гуй кутэ или гытыка?

** ()
[#]  
AnDoR

Re: Вышел OCRopus 0.1.0

ну значится ждём ебилдов (=

*** ()
[#]  

Re: Вышел OCRopus 0.1.0

Русский понимает?

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от DOKA 25.10.2007 20:51:25  

Re: Вышел OCRopus 0.1.0

> Русский понимает? Нет. Надеюсь, пока

** ()
[#]  
AP

Re: Вышел OCRopus 0.1.0

Упаковка gnome-scan стала на порядок проще :)

***** ()
[#]  

Re: Вышел OCRopus 0.1.0

Хорошооооо! Покажем им! )

()
[#]  

Re: Вышел OCRopus 0.1.0

Очень-очень хорошая новость, но версия 0.1 не вызывает доверия. Подождем хотя бы 0.5.;-)

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от georgii 25.10.2007 21:18:29  

Re: Вышел OCRopus 0.1.0

дык вы что-то пропустили... я в инете виде группу русских пользователей, которые научают это поделие распознавать кириллицу. может быть эта новость была и на ЛОР. в общем, кому интересно по поводу русского языка, ищите в инете, ибо он сейчас в процессе создания

anonymous ()
[#]  

Re: Вышел OCRopus 0.1.0

Пробовал тессеракт, нихера он не распознаёт.

Abbyy может не волноваться ещё лет десять.

* ()
[#]  

Re: Вышел OCRopus 0.1.0

Виндекапец?

anonymous ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever 25.10.2007 21:42:31  
ZloySergant

Re: Вышел OCRopus 0.1.0

>Пробовал тессеракт, нихера он не распознаёт.

>Abbyy может не волноваться ещё лет десять.

Опять лужи газифицируем? Проверь /dev/hands - это не должно быть симлинком на /dev/ass.

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever 25.10.2007 21:42:31  

Re: Вышел OCRopus 0.1.0

> Пробовал тессеракт, нихера он не распознаёт.

тессеракт это всего лишь движок. Говорят очень хороший. Но чтобы распознавать, ему нужны ОБРАЗЦЫ букв. Русских у него сейчас нет. Но можно сделать- самому посканить страницы, вырезать по 20 картинок одной и тоже же буквы, тогда тебе может наступить счастье.

Интересно, а из Abby можно стырить сэмплы русского алфавита? ;)

anonymous ()
[#]  

Re: Вышел OCRopus 0.1.0

> Так дело пойдет, и Abbyy придется потесниться :)

Лет через двадцать пять.

***** ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever 25.10.2007 21:42:31  

Re: Вышел OCRopus 0.1.0

>Пробовал тессеракт, нихера он не распознаёт

Не распознает кириллицу !="Нихера не распознает"

>Abbyy может не волноваться ещё лет десять.

Может, и безо всякого тессеракта. Я сейчас сижу по работе мучаю 9-й FR в гостевых винюках. Налицо типичная проблема всех разработчиков чего-либо качественного, но проприетарного: закончились мал-мала очевидные _покупателю_ новации, началось прикручивание свистелок&перделок, чтобы отделу маркетинга было чем мозги засирать. Fine Reader 9 -- еще тот монстр, тяжелый и неповоротливый. Зато список "мега-порно-крутых фич" -- пачка пресс-релизов толщиной с руководство к оному ридеру =)

* ()
[#]  
GFORGX

Re: Вышел OCRopus 0.1.0

Кто-нить уже скачал? Закиньте куда-нить скрины, скачать пока не могу - GPRS =(

**# ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от ZloySergant 26.10.2007 7:00:01  

Re: Вышел OCRopus 0.1.0

> Опять лужи газифицируем? Проверь /dev/hands - это не должно быть симлинком на /dev/ass.

Пнх, дебилко.

Пробовал тессеракт на своих задачах. Качество распознавания - шлак.

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от bigc 26.10.2007 9:16:48  

Re: Вышел OCRopus 0.1.0

> Не распознает кириллицу !="Нихера не распознает"

Я, разумеется, пробовал латиницу.

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от GFORGX 26.10.2007 9:50:19  

Re: Вышел OCRopus 0.1.0

Скачать-то скачал и даже собрал и потестил, только вот на анонсированный в новости GUI ни намека, so закидывать собственно нечего. могу выложить куда-нить тестовую страничку в png и результат распознавания оной, неплохой кстати.

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever 26.10.2007 10:13:44  

Re: Вышел OCRopus 0.1.0

Да ну. И чего, прямо-таки нихера не распознает? Как это жалко... Видимо стоит последовать совету несколькими постами выше.

* ()
[#]  
GladAlex

Re: Вышел OCRopus 0.1.0

BTW, а интерфейс у гугловского форума (как и у почты) очень приятный: может для ЛОР-а взять?

***** ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от anonymous 26.10.2007 7:21:38  
Cyril

Re: Вышел OCRopus 0.1.0

> Интересно, а из Abby можно стырить сэмплы русского алфавита? ;)

Там нет сэмплов как таковых (картинок). Там есть описания в математической форме - и, естественно, вряд ли tesseract их поймёт.

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от snizovtsev 25.10.2007 20:53:46  

Re: Вышел OCRopus 0.1.0

Там же вроде как обучалку прикручивали???

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever 26.10.2007 10:12:20  
ZloySergant

Re: Вышел OCRopus 0.1.0

>Пнх, дебилко.

Ну, я думаю, ты понял куда, когда, зачем тебе идти и чем там заниматься?

>Пробовал тессеракт на своих задачах. Качество распознавания - шлак.

Странно, у меня немного допиленная в плане русского языка версия (мои словари и т.п.) нормально (для меня) распознавала текст на русском, на латиницу тоже нареканий не было.

Если уж он статью Куликова из "Экономических наук" за сент. 1990 (желтый лист, местами подчеркнуто ручкой, позже выделено маркером) распознал, то что же это у тебя за задачи такие?

Соотв. к /dev/hands и /dev/ass добавляется необходимость проверки /dev/mind

* ()
[#]  

ABBYY

ABBYY ща начнёт по одному отстреливать активных участников ветки =))

# ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от bigc 26.10.2007 10:19:01  
GFORGX

Re: Вышел OCRopus 0.1.0

Распознаёт латиницу _великолепно_

Гуи нету, к сожалению, хотя управление достаточно удобное, в стиле unix:

ocrocmd image.png > output.html

**# ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от ZloySergant 26.10.2007 15:58:17  
AP

Re: Вышел OCRopus 0.1.0

> Если уж он статью Куликова из "Экономических наук" за сент. 1990 (желтый лист, местами подчеркнуто ручкой, позже выделено маркером) распознал, то что же это у тебя за задачи такие?

А есть ли примерные оценки, когда ваша работа в апстрим попадёт?

***** ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от bigc 26.10.2007 10:19:01  

Re: Вышел OCRopus 0.1.0

> Да ну. И чего, прямо-таки нихера не распознает?

Разпознаёт местами, да. Но на доведение ума усилий потребно почти как для набора заново.

До коммерческих аналогов - как до Пекина раком.

* ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от ZloySergant 26.10.2007 15:58:17  

Re: Вышел OCRopus 0.1.0

>> Пнх, дебилко. > Ну, я думаю, ты понял куда, когда, зачем тебе идти и чем там заниматься?

В отличие от вас - я даю _чёткие_ указания, заметьте.

> Странно, у меня немного допиленная в плане русского языка версия (мои словари и т.п.) нормально (для меня) распознавала текст на русском, на латиницу тоже нареканий не было.

[пожимая плечами] YMMV. Я ваших задач не знаю. На _моих_ задачах тессеракт брутально сосёт. И, соответственно, для меня - не подходит.

* ()
[#]  

Re: Вышел OCRopus 0.1.0

капчакапец?

** ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от ZloySergant 26.10.2007 15:58:17  
GFORGX

Re: Вышел OCRopus 0.1.0

Залей, пожалуйста, куда-нить русские файлы, которые получил при обучении.

**# ()
[#] Ответ на: Re: Вышел OCRopus 0.1.0 от AP 26.10.2007 22:11:59  
ZloySergant

Re: Вышел OCRopus 0.1.0

>А есть ли примерные оценки, когда ваша работа в апстрим попадёт?

На деле - никогда. Ху*ню в апстрим пихать не собирался. А доводка до ума требовала ~50-60 часов (без словарей). Времени у меня сейчас нет. Потому снес где-то через неделю после того, как поставил... (Впрочем, если я его включил в бэкап, может и выложу... Надо посмотреть.)

* ()