LINUX.ORG.RU

Вышел OCRopus 0.1.0


0

0

OCRopus, это попытка от Google создать OCR-систему на базе не так давно открытого распознающего ядра - tesseract. В состав OCRopus входит собственно tesseract, GUI и интерфейс автоматизации и конфигурирования на основе Lua.

Из улучшений (не считая то. что это, в общем, первый релиз этой программы):

* Разделение входного изображения на текст и графику
* Улучшения в алгоритмах распознавания
* Новая статистическая модель языка
* Улучшенный вывод в собственном формате hOCR

и т.п.

Так дело пойдет, и Abbyy придется потесниться :)

Страница проекта

>>> Подробности

Отличная новость! Пошёл качать! Слава HP и Google!

GFORGX ★★★
()

Hmm... Не нашёл ссылку для загрузки. Ткните...

GFORGX ★★★
()

Да, кстати там гуй кутэ или гытыка?

AiFiLTr0 ★★★★★
()

ну значится ждём ебилдов (=

AnDoR ★★★★★
()

Упаковка gnome-scan стала на порядок проще :)

AP ★★★★★
()

Хорошооооо! Покажем им! )

dx
()

Очень-очень хорошая новость, но версия 0.1 не вызывает доверия. Подождем хотя бы 0.5.;-)

georgii
()
Ответ на: комментарий от georgii

дык вы что-то пропустили... я в инете виде группу русских пользователей, которые научают это поделие распознавать кириллицу. может быть эта новость была и на ЛОР. в общем, кому интересно по поводу русского языка, ищите в инете, ибо он сейчас в процессе создания

anonymous
()

Виндекапец?

anonymous
()
Ответ на: комментарий от yk4ever

>Пробовал тессеракт, нихера он не распознаёт.

>Abbyy может не волноваться ещё лет десять.

Опять лужи газифицируем? Проверь /dev/hands - это не должно быть симлинком на /dev/ass.

ZloySergant
()
Ответ на: комментарий от yk4ever

> Пробовал тессеракт, нихера он не распознаёт.

тессеракт это всего лишь движок. Говорят очень хороший. Но чтобы распознавать, ему нужны ОБРАЗЦЫ букв. Русских у него сейчас нет. Но можно сделать- самому посканить страницы, вырезать по 20 картинок одной и тоже же буквы, тогда тебе может наступить счастье.

Интересно, а из Abby можно стырить сэмплы русского алфавита? ;)

anonymous
()

> Так дело пойдет, и Abbyy придется потесниться :)

Лет через двадцать пять.

birdie ★★★★★
()
Ответ на: комментарий от yk4ever

>Пробовал тессеракт, нихера он не распознаёт

Не распознает кириллицу !="Нихера не распознает"

>Abbyy может не волноваться ещё лет десять.

Может, и безо всякого тессеракта. Я сейчас сижу по работе мучаю 9-й FR в гостевых винюках. Налицо типичная проблема всех разработчиков чего-либо качественного, но проприетарного: закончились мал-мала очевидные _покупателю_ новации, началось прикручивание свистелок&перделок, чтобы отделу маркетинга было чем мозги засирать. Fine Reader 9 -- еще тот монстр, тяжелый и неповоротливый. Зато список "мега-порно-крутых фич" -- пачка пресс-релизов толщиной с руководство к оному ридеру =)

bigc ★★
()
Ответ на: комментарий от ZloySergant

> Опять лужи газифицируем? Проверь /dev/hands - это не должно быть симлинком на /dev/ass.

Пнх, дебилко.

Пробовал тессеракт на своих задачах. Качество распознавания - шлак.

yk4ever
()
Ответ на: комментарий от GFORGX

Скачать-то скачал и даже собрал и потестил, только вот на анонсированный в новости GUI ни намека, so закидывать собственно нечего. могу выложить куда-нить тестовую страничку в png и результат распознавания оной, неплохой кстати.

bigc ★★
()
Ответ на: комментарий от yk4ever

Да ну. И чего, прямо-таки нихера не распознает? Как это жалко... Видимо стоит последовать совету несколькими постами выше.

bigc ★★
()

BTW, а интерфейс у гугловского форума (как и у почты) очень приятный: может для ЛОР-а взять?

GladAlex ★★★★★
()
Ответ на: комментарий от anonymous

> Интересно, а из Abby можно стырить сэмплы русского алфавита? ;)

Там нет сэмплов как таковых (картинок). Там есть описания в математической форме - и, естественно, вряд ли tesseract их поймёт.

Cyril ★★
()
Ответ на: комментарий от yk4ever

>Пнх, дебилко.

Ну, я думаю, ты понял куда, когда, зачем тебе идти и чем там заниматься?

>Пробовал тессеракт на своих задачах. Качество распознавания - шлак.

Странно, у меня немного допиленная в плане русского языка версия (мои словари и т.п.) нормально (для меня) распознавала текст на русском, на латиницу тоже нареканий не было.

Если уж он статью Куликова из "Экономических наук" за сент. 1990 (желтый лист, местами подчеркнуто ручкой, позже выделено маркером) распознал, то что же это у тебя за задачи такие?

Соотв. к /dev/hands и /dev/ass добавляется необходимость проверки /dev/mind

ZloySergant
()

ABBYY

ABBYY ща начнёт по одному отстреливать активных участников ветки =))

Veter
()
Ответ на: комментарий от bigc

Распознаёт латиницу _великолепно_

Гуи нету, к сожалению, хотя управление достаточно удобное, в стиле unix:

ocrocmd image.png > output.html

GFORGX ★★★
()
Ответ на: комментарий от ZloySergant

> Если уж он статью Куликова из "Экономических наук" за сент. 1990 (желтый лист, местами подчеркнуто ручкой, позже выделено маркером) распознал, то что же это у тебя за задачи такие?

А есть ли примерные оценки, когда ваша работа в апстрим попадёт?

AP ★★★★★
()
Ответ на: комментарий от bigc

> Да ну. И чего, прямо-таки нихера не распознает?

Разпознаёт местами, да. Но на доведение ума усилий потребно почти как для набора заново.

До коммерческих аналогов - как до Пекина раком.

yk4ever
()
Ответ на: комментарий от ZloySergant

>> Пнх, дебилко. > Ну, я думаю, ты понял куда, когда, зачем тебе идти и чем там заниматься?

В отличие от вас - я даю _чёткие_ указания, заметьте.

> Странно, у меня немного допиленная в плане русского языка версия (мои словари и т.п.) нормально (для меня) распознавала текст на русском, на латиницу тоже нареканий не было.

[пожимая плечами] YMMV. Я ваших задач не знаю. На _моих_ задачах тессеракт брутально сосёт. И, соответственно, для меня - не подходит.

yk4ever
()
Ответ на: комментарий от ZloySergant

Залей, пожалуйста, куда-нить русские файлы, которые получил при обучении.

GFORGX ★★★
()
Ответ на: комментарий от AP

>А есть ли примерные оценки, когда ваша работа в апстрим попадёт?

На деле - никогда. Ху*ню в апстрим пихать не собирался. А доводка до ума требовала ~50-60 часов (без словарей). Времени у меня сейчас нет. Потому снес где-то через неделю после того, как поставил... (Впрочем, если я его включил в бэкап, может и выложу... Надо посмотреть.)

ZloySergant
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.