LINUX.ORG.RU

Вышел OCRopus 0.1.0


0

0

OCRopus, это попытка от Google создать OCR-систему на базе не так давно открытого распознающего ядра - tesseract. В состав OCRopus входит собственно tesseract, GUI и интерфейс автоматизации и конфигурирования на основе Lua.

Из улучшений (не считая то. что это, в общем, первый релиз этой программы):

* Разделение входного изображения на текст и графику
* Улучшения в алгоритмах распознавания
* Новая статистическая модель языка
* Улучшенный вывод в собственном формате hOCR

и т.п.

Так дело пойдет, и Abbyy придется потесниться :)

Страница проекта

>>> Подробности

Re: Вышел OCRopus 0.1.0

Отличная новость! Пошёл качать! Слава HP и Google!

GFORGX ★★☆ ()

Re: Вышел OCRopus 0.1.0

Hmm... Не нашёл ссылку для загрузки. Ткните...

GFORGX ★★☆ ()

Re: Вышел OCRopus 0.1.0

Да, кстати там гуй кутэ или гытыка?

AiFiLTr0 ★★★★★ ()

Re: Вышел OCRopus 0.1.0

ну значится ждём ебилдов (=

AnDoR ★★★★★ ()

Re: Вышел OCRopus 0.1.0

Упаковка gnome-scan стала на порядок проще :)

AP ★★★★★ ()

Re: Вышел OCRopus 0.1.0

Хорошооооо! Покажем им! )

dx ()

Re: Вышел OCRopus 0.1.0

Очень-очень хорошая новость, но версия 0.1 не вызывает доверия. Подождем хотя бы 0.5.;-)

georgii ()
Ответ на: Re: Вышел OCRopus 0.1.0 от georgii

Re: Вышел OCRopus 0.1.0

дык вы что-то пропустили... я в инете виде группу русских пользователей, которые научают это поделие распознавать кириллицу. может быть эта новость была и на ЛОР. в общем, кому интересно по поводу русского языка, ищите в инете, ибо он сейчас в процессе создания

anonymous ()

Re: Вышел OCRopus 0.1.0

Пробовал тессеракт, нихера он не распознаёт.

Abbyy может не волноваться ещё лет десять.

yk4ever ()

Re: Вышел OCRopus 0.1.0

Виндекапец?

anonymous ()
Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever

Re: Вышел OCRopus 0.1.0

>Пробовал тессеракт, нихера он не распознаёт.

>Abbyy может не волноваться ещё лет десять.

Опять лужи газифицируем? Проверь /dev/hands - это не должно быть симлинком на /dev/ass.

ZloySergant ()
Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever

Re: Вышел OCRopus 0.1.0

> Пробовал тессеракт, нихера он не распознаёт.

тессеракт это всего лишь движок. Говорят очень хороший. Но чтобы распознавать, ему нужны ОБРАЗЦЫ букв. Русских у него сейчас нет. Но можно сделать- самому посканить страницы, вырезать по 20 картинок одной и тоже же буквы, тогда тебе может наступить счастье.

Интересно, а из Abby можно стырить сэмплы русского алфавита? ;)

anonymous ()

Re: Вышел OCRopus 0.1.0

> Так дело пойдет, и Abbyy придется потесниться :)

Лет через двадцать пять.

birdie ★★★★★ ()
Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever

Re: Вышел OCRopus 0.1.0

>Пробовал тессеракт, нихера он не распознаёт

Не распознает кириллицу !="Нихера не распознает"

>Abbyy может не волноваться ещё лет десять.

Может, и безо всякого тессеракта. Я сейчас сижу по работе мучаю 9-й FR в гостевых винюках. Налицо типичная проблема всех разработчиков чего-либо качественного, но проприетарного: закончились мал-мала очевидные _покупателю_ новации, началось прикручивание свистелок&перделок, чтобы отделу маркетинга было чем мозги засирать. Fine Reader 9 -- еще тот монстр, тяжелый и неповоротливый. Зато список "мега-порно-крутых фич" -- пачка пресс-релизов толщиной с руководство к оному ридеру =)

bigc ()

Re: Вышел OCRopus 0.1.0

Кто-нить уже скачал? Закиньте куда-нить скрины, скачать пока не могу - GPRS =(

GFORGX ★★☆ ()
Ответ на: Re: Вышел OCRopus 0.1.0 от ZloySergant

Re: Вышел OCRopus 0.1.0

> Опять лужи газифицируем? Проверь /dev/hands - это не должно быть симлинком на /dev/ass.

Пнх, дебилко.

Пробовал тессеракт на своих задачах. Качество распознавания - шлак.

yk4ever ()
Ответ на: Re: Вышел OCRopus 0.1.0 от GFORGX

Re: Вышел OCRopus 0.1.0

Скачать-то скачал и даже собрал и потестил, только вот на анонсированный в новости GUI ни намека, so закидывать собственно нечего. могу выложить куда-нить тестовую страничку в png и результат распознавания оной, неплохой кстати.

bigc ()
Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever

Re: Вышел OCRopus 0.1.0

Да ну. И чего, прямо-таки нихера не распознает? Как это жалко... Видимо стоит последовать совету несколькими постами выше.

bigc ()

Re: Вышел OCRopus 0.1.0

BTW, а интерфейс у гугловского форума (как и у почты) очень приятный: может для ЛОР-а взять?

GladAlex ★★★★★ ()
Ответ на: Re: Вышел OCRopus 0.1.0 от anonymous

Re: Вышел OCRopus 0.1.0

> Интересно, а из Abby можно стырить сэмплы русского алфавита? ;)

Там нет сэмплов как таковых (картинок). Там есть описания в математической форме - и, естественно, вряд ли tesseract их поймёт.

Cyril ★★ ()
Ответ на: Re: Вышел OCRopus 0.1.0 от yk4ever

Re: Вышел OCRopus 0.1.0

>Пнх, дебилко.

Ну, я думаю, ты понял куда, когда, зачем тебе идти и чем там заниматься?

>Пробовал тессеракт на своих задачах. Качество распознавания - шлак.

Странно, у меня немного допиленная в плане русского языка версия (мои словари и т.п.) нормально (для меня) распознавала текст на русском, на латиницу тоже нареканий не было.

Если уж он статью Куликова из "Экономических наук" за сент. 1990 (желтый лист, местами подчеркнуто ручкой, позже выделено маркером) распознал, то что же это у тебя за задачи такие?

Соотв. к /dev/hands и /dev/ass добавляется необходимость проверки /dev/mind

ZloySergant ()

ABBYY

ABBYY ща начнёт по одному отстреливать активных участников ветки =))

Veter ()
Ответ на: Re: Вышел OCRopus 0.1.0 от bigc

Re: Вышел OCRopus 0.1.0

Распознаёт латиницу _великолепно_

Гуи нету, к сожалению, хотя управление достаточно удобное, в стиле unix:

ocrocmd image.png > output.html

GFORGX ★★☆ ()
Ответ на: Re: Вышел OCRopus 0.1.0 от ZloySergant

Re: Вышел OCRopus 0.1.0

> Если уж он статью Куликова из "Экономических наук" за сент. 1990 (желтый лист, местами подчеркнуто ручкой, позже выделено маркером) распознал, то что же это у тебя за задачи такие?

А есть ли примерные оценки, когда ваша работа в апстрим попадёт?

AP ★★★★★ ()
Ответ на: Re: Вышел OCRopus 0.1.0 от bigc

Re: Вышел OCRopus 0.1.0

> Да ну. И чего, прямо-таки нихера не распознает?

Разпознаёт местами, да. Но на доведение ума усилий потребно почти как для набора заново.

До коммерческих аналогов - как до Пекина раком.

yk4ever ()
Ответ на: Re: Вышел OCRopus 0.1.0 от ZloySergant

Re: Вышел OCRopus 0.1.0

>> Пнх, дебилко. > Ну, я думаю, ты понял куда, когда, зачем тебе идти и чем там заниматься?

В отличие от вас - я даю _чёткие_ указания, заметьте.

> Странно, у меня немного допиленная в плане русского языка версия (мои словари и т.п.) нормально (для меня) распознавала текст на русском, на латиницу тоже нареканий не было.

[пожимая плечами] YMMV. Я ваших задач не знаю. На _моих_ задачах тессеракт брутально сосёт. И, соответственно, для меня - не подходит.

yk4ever ()

Re: Вышел OCRopus 0.1.0

капчакапец?

volh ★★ ()
Ответ на: Re: Вышел OCRopus 0.1.0 от ZloySergant

Re: Вышел OCRopus 0.1.0

Залей, пожалуйста, куда-нить русские файлы, которые получил при обучении.

GFORGX ★★☆ ()
Ответ на: Re: Вышел OCRopus 0.1.0 от AP

Re: Вышел OCRopus 0.1.0

>А есть ли примерные оценки, когда ваша работа в апстрим попадёт?

На деле - никогда. Ху*ню в апстрим пихать не собирался. А доводка до ума требовала ~50-60 часов (без словарей). Времени у меня сейчас нет. Потому снес где-то через неделю после того, как поставил... (Впрочем, если я его включил в бэкап, может и выложу... Надо посмотреть.)

ZloySergant ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.