Google дарит всем Open Source OCR

Вот это - праздник.

//algor

anonymous
(01.09.06 11:14:54 MSK)

лучшая из OS? а с комерческими системами, тем же файнридером, она сможет потягаться?

palach ★
(01.09.06 11:19:48 MSK)

Ответ на: комментарий от anonymous 01.09.06 11:14:54 MSK

С русским по-прежнему плохо :(

LexxTheFox ★★
(01.09.06 11:20:17 MSK)

Ссылка

Ну, русский язык - дело поправимое, если конечно реально кому-то нужно распознавать русские тексты. А мне и English хватит пока :) Виват гугля!

~~Hokum~~ ☆☆☆☆
(01.09.06 11:20:55 MSK)

Ссылка

Латиницу то и до этого неплохо распознавали...

as33 ★☆☆
(01.09.06 11:21:15 MSK)

Ссылка

>Компания Google открыла исходники системы по распознаванию текста Tesseract, которая разрабатывалась в лабораториях Hewlett-Packard с 1985 по 1995 годы. По словам Google, Tesseract, на данный момент, - лучшая Open Source система распознавания, которая, однако, поддерживает только английский язык.

Надо сравнивать не с OpenSource OCR, а с теми, которые популярны у пользователей, с FineReader, например.

stellar ★
(01.09.06 11:22:48 MSK)

Ссылка

c FineReader'ом мало что может потягаться. А то, что русские буквы не распознаются - это действительно плохо

propheta
(01.09.06 11:32:38 MSK)

Почему только английский язык? Не един ли пёс, какой язык, если в его алфавите латинские буквы?

VladimirP ★★★★
(01.09.06 11:35:37 MSK)

Ссылка

У нас используется почти латинский алфавит, вот китайцам-японцам сложнее...

Ay49Mihas ★★★★
(01.09.06 11:40:57 MSK)

Ссылка

На самом деле, русский распознавать даже легче, чем английский.

Пример, как системе различить английскую маленькую L, i или 1? На некоторых шрифтах они просто совпадают.

1 l i

Хотя в русском есть свои прелести: буква Ю, например, которую старые версиии FinreReader'a норовили распознать как 1O.

birdie ★★★★★
(01.09.06 11:41:45 MSK) автор топика

я только не понял, а под какой лицензией они открыли эти исходники

vasaka ★★★
(01.09.06 11:42:31 MSK)

забили на нее 10 лет назад
валялось валялось и вот решили отдать на растерзание красноглазым студентам
посмотрим чего там сделают
пользовался триальной 30 дневной версией файнридера без напряга

anonymous
(01.09.06 11:47:30 MSK)

Ответ на: комментарий от anonymous 01.09.06 11:47:30 MSK

УРа! В общем радует. Русский прикрутят :-))

Arceny ★★
(01.09.06 11:52:04 MSK)

Ответ на: комментарий от anonymous 01.09.06 11:47:30 MSK

>валялось валялось и вот решили отдать на растерзание красноглазым студентам посмотрим чего там сделают

сомневаюсь что ты что то стоящее сделаешь. не верю :)

>пользовался триальной 30 дневной версией файнридера без напряга

в этом иди на винфаке признавайся. к извращенцам

anonymous
(01.09.06 11:54:36 MSK)

Ссылка

пока русский не прикрутят, не интересно. хотя и после прикручивания ей до Файн ридера еще далеко...

cleg ★
(01.09.06 12:04:22 MSK)

Ссылка

Ответ на: комментарий от Arceny 01.09.06 11:52:04 MSK

> УРа! В общем радует. Русский прикрутят :-))

Подобных OCR со свободным кодом уже несколько лет несколько штук. С русским что-то успехов не видно. Что прикручивать то?

Evgueni ★★★★★
(01.09.06 12:04:31 MSK)

Google порабощает Планету, и это здорово!

plm ★★★★★
(01.09.06 12:05:26 MSK)

Ссылка

Ответ на: комментарий от Evgueni 01.09.06 12:04:31 MSK

Забыл добавить: В общем, как всегда нужен герой :)

Evgueni ★★★★★
(01.09.06 12:05:44 MSK)

Ссылка

Page layout не понимает, с grayscale и цветом не работает... Не, ребята, это очень и очень слабая штука. Оно может и "аккуратнее", чем большинство GPL продуктов, но вот с функционалом напряг изрядный. И два девелопера. В общем, надо в сырцы посмотреть на пример используемого метода, но первое впечатление - слабовато, определённо слабовато. Zoning - он должон быть прежде всего, распознать букву - практически элементарно, как ни странно (отдельную, да, не в слове ;)

anonymous
(01.09.06 12:05:56 MSK)

Ссылка

забавно. содержимое директории doc/ конечно же поражает своей полнотой. да и расширение .cpp у чисто сишного кода несколько удивляет. прелестная похоже штучка :-/

// wbr

~~klalafuda~~ ★☆☆
(01.09.06 12:12:21 MSK)

Ссылка

Может суперспециалисты ЛОРа прикрутят к этому делу русский язык?

birdie ★★★★★
(01.09.06 12:21:39 MSK) автор топика

Ответ на: комментарий от propheta 01.09.06 11:32:38 MSK

>c FineReader'ом мало что может потягаться. А то, что русские буквы не распознаются - это действительно плохо

были бы "кости", а "мясо" нарастет ;)

AcidumIrae ★★★★★
(01.09.06 12:29:48 MSK)

Ссылка

А ЛОРовские буковки он взломает?

Orlangoor ★★★★★
(01.09.06 12:32:38 MSK)

Ответ на: комментарий от Orlangoor 01.09.06 12:32:38 MSK

Вычислительной мощности хватит если. Ведь с таким делом даже кластер из ананимусов с трудом справляется...

~~bugmaker~~ ★★★★☆
(01.09.06 13:08:56 MSK)

Ссылка

Ответ на: комментарий от birdie 01.09.06 12:21:39 MSK

Обязательно прикрутим! Вот и подходящий OCR движок для sK1(http://sk1.sf.net) - думали ocrad попользовать, но раз такая шара катит... Оч хорошо!

~~Linfan~~ ★★★★★
(01.09.06 13:48:57 MSK)

Ссылка

Ответ на: комментарий от propheta 01.09.06 11:32:38 MSK

А вроде файнридер портировали под линакс? Или я опять чего то не так понял?

~~Sun-ch~~ ☆
(01.09.06 13:54:05 MSK)

Ответ на: комментарий от Sun-ch 01.09.06 13:54:05 MSK

> А вроде файнридер портировали под линакс?

Движок только. Да и то старый, да и еще килобаксы за него хотят :(

ser_bur ★★
(01.09.06 14:05:53 MSK)

Ссылка

Ответ на: комментарий от birdie 01.09.06 11:41:45 MSK

>Хотя в русском есть свои прелести: буква Ю, например
А ещё замечательная буква "Ы" = "Ь" + "1". :)

А насчёт какая разница какой язык, если буквы почти латинские, так оно и нужно для того, чтобы такие "прелести" отлавливать. Попробовали распознать, проверили по словарику, если лажа - попробовали другие буквы. :)

anonymous
(01.09.06 14:24:38 MSK)

Ссылка

Ответ на: комментарий от Sun-ch 01.09.06 13:54:05 MSK

Продают только движок для создание коммерческих продуктов, что _сильно_ дороже FineReader, который идёт с каждым сканером.

Evgueni ★★★★★
(01.09.06 14:34:34 MSK)

Ответ на: комментарий от palach 01.09.06 11:19:48 MSK

Re: Google дарит всем Open Source OCR ->

palach >а с комерческими системами, тем же файнридером, она сможет потягаться?

Уже сколько раз повторяю: ОЕПНСОРС НЕ ИСКЛЮЧАЕТ КОММЕРЦИЮ!!!! И, кстати, этот файнридер весело распознаёт чистый, незапачканный текст =) Например вместо слова "неедля" выдавал "педеля" =) Подобных примеров огромное количество. Так что про файнридер ты зря... Если это лучшая OCR, то всё остальное нормально текст распозначать не может.

Hokum >если конечно реально кому-то нужно распознавать русские тексты.

А как тогда рефераты писать? От руками? ;)

Ay49Mihas >У нас используется почти латинский алфавит

Ну не сказал бы... Как никак немало из греческого алфавита. А почти латинский - это уже тюркские народы.

~~Quasar~~ ★★★★★
(01.09.06 14:37:09 MSK)

Ссылка

Ответ на: комментарий от Evgueni 01.09.06 14:34:34 MSK

И что же? За все это время ни одного коммерческого продукта так и не было создано? Может они цены сильно задрали, или качество движка не очень высокое?

~~Sun-ch~~ ☆
(01.09.06 14:39:31 MSK)

Ответ на: комментарий от Sun-ch 01.09.06 14:39:31 MSK

> И что же? За все это время ни одного коммерческого продукта так и не было создано? Может они цены сильно задрали, или качество движка не очень высокое?

Ничего слышно не было. Кроме того продукт необязательно продавать как программную систему распознавания. Вон в тех-же ручках-переводчиках (провёл по бумаге - она тебе ответ высветила) кто знает что-там сидит.

Evgueni ★★★★★
(01.09.06 14:44:13 MSK)

Ссылка

а капчи гугла оно распознает?

anonymous
(01.09.06 15:45:50 MSK)

Ссылка

У каждой бумажной копии есть электронный исходник. Если это, конечно. не "Слово о полку игореве". Надо делиться исходниками. Распознавалки - проприетарская фтопочная отрыжка.

anonymous
(01.09.06 16:08:08 MSK)

Ответ на: комментарий от anonymous 01.09.06 16:08:08 MSK

>У каждой бумажной копии есть электронный исходник.

Не все книги издавались в XXI веке.

~~KRoN73~~ ★★★★★
(01.09.06 16:32:38 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.09.06 16:08:08 MSK

Не у всех бумажных копий есть электронный исходник. К сожалению. На меня вот тут недавно свалилось счастье по распознаванию скольки-то там тысяч страниц, битком набитых мелкими циферками... Статистика с какого-то там года и по сегодняшний день... По эн страниц на год... На пишущей машинке печатали... а потом цифровой камерой криво снимали :) :*-( (жалобным голосом) Хочу OCR!!! Чтобы как в имджмэджике, скриптом... ну, т.е. автоматизировать процесс... Да только не тянет никто... ocrad выдает такое что лучше не видеть... файнридеру даже местами ахинея какая-то мерещится...

fiowro ★★
(01.09.06 16:38:16 MSK)

Ответ на: комментарий от Sun-ch 01.09.06 13:54:05 MSK

> А вроде файнридер портировали под линакс? Или я опять чего то не так понял?

SDK для разработчика и за немерянное бабло.

~~fernik~~ ☆
(01.09.06 16:53:21 MSK)

Ответ на: комментарий от birdie 01.09.06 11:41:45 MSK

>На самом деле, русский распознавать даже легче, чем английский.

конечно, избыточность русского текста намного больше, чем английского, надо только научить машину её использовать

shafff ★
(01.09.06 16:58:48 MSK)

Ответ на: комментарий от shafff 01.09.06 16:58:48 MSK

>>Надо делиться исходниками.

Ага, конечно-конечно.

попробуй-скачай любое более-менее современное произведение.. - шиш

Lockywolf ★★★
(01.09.06 17:15:03 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.09.06 11:47:30 MSK

>пользовался триальной 30 дневной версией файнридера без напряга

И как? Копирование в буфер работает? И сохранение тоже? Лучше сразу признайся в каком году дело было. Или всё-таки это была честно взломаная коммерческая версия?

acheron ★★★★
(01.09.06 17:46:16 MSK)

Ссылка

Ответ на: комментарий от fernik 01.09.06 16:53:21 MSK

> А вроде файнридер портировали под линакс? Или я опять чего то не так понял?

AFAIK, обещают, что следующая версия нормально будет работать под вайном. И всё.

acheron ★★★★
(01.09.06 17:47:07 MSK)

Ссылка

Ответ на: комментарий от fiowro 01.09.06 16:38:16 MSK

> Не у всех бумажных копий есть электронный исходник. К сожалению. На меня вот тут недавно свалилось счастье по распознаванию скольки-то там тысяч страниц, битком набитых мелкими циферками... Статистика с какого-то там года и по сегодняшний день... По эн страниц на год... На пишущей машинке печатали... а потом цифровой камерой криво снимали :) :*-( (жалобным голосом) Хочу OCR!!! Чтобы как в имджмэджике, скриптом... ну, т.е. автоматизировать процесс... Да только не тянет никто... ocrad выдает такое что лучше не видеть... файнридеру даже местами ахинея какая-то мерещится...

А можно пример странички?

syomin ★
(01.09.06 17:50:05 MSK)

вопрос в тему и не совсем :)

буквально вчера возился я с этим самым finereader'ом (под оффтопик) -- так он, зараза, прекрасно паспознанный русский текст сохраняет крякозябрами -- толи какя-то извращённая форма uft, толи хз что. В любом случае не читабельно (сплошные квадратики) :(

ни кто не сталкивася?

beastie ★★★★★
(01.09.06 18:00:30 MSK)

Ответ на: комментарий от Orlangoor 01.09.06 12:32:38 MSK

>А ЛОРовские буковки он взломает?

Я их даже трезвый взломать не могу. Так что одним анонимусом меньше

SatanClaus ★★★
(01.09.06 18:09:35 MSK)

Ссылка

Ответ на: комментарий от Evgueni 01.09.06 12:04:31 MSK

> Подобных OCR со свободным кодом уже несколько лет несколько штук. С русским что-то успехов не видно. Что прикручивать то?

AFAIK, большинство самописных OCR программ жёстко ориентированы на конкретный язык и добавление ещё одного алфавита/языка - задача нетривиальная. Пример - gocr (со слов разработчиков). Вроде, clara - такая же. Остальные, имхо, для работы ещё непригодны.

Дорогие коммерческие системы вроде FineReaderа часто, наоборот, предусматривает расширение и обучение новым символам. Правда иероглифам FineReader так пока и не смогли научить, ABBY говорит, что для этого нужно сильно переделать движок. Поэтому есть надежда, что чего-то смогут добиться с бывшей коммерческой системой.

acheron ★★★★
(01.09.06 18:35:13 MSK)

Ответ на: комментарий от beastie 01.09.06 18:00:30 MSK

> finereader паспознанный русский текст сохраняет крякозябрами

Защита от копирования в новых версиях. Недоломаная. Подробнее - на http://www.abbyy.ru/finereader/forum/ Кстати, копирование в буфер и вставка тоже дадут крякозябры. Если FineReader покупал - иди ругаться с продавцом, что продал "пиратку" (или сразу заявление в ФСБ :) ), если нет - ищи ещё один кряк. Что-то типа "finereader crack normal characters in saved files".

acheron ★★★★
(01.09.06 18:46:18 MSK)

Ответ на: комментарий от acheron 01.09.06 18:46:18 MSK

Нормальный кряк к файнридеру есть, насколько помню, на ру-борде. Линков давать не буду, ибо потрут как варез.

Ramen ★★★★
(01.09.06 20:22:10 MSK)

Ссылка

Ответ на: комментарий от acheron 01.09.06 18:35:13 MSK

> AFAIK, большинство самописных OCR программ жёстко ориентированы на конкретный язык и добавление ещё одного алфавита/языка - задача нетривиальная. Пример - gocr (со слов разработчиков). Вроде, clara - такая же.

Не вроде, а не такая же. Ффпоеск :)

AP ★★★★★
(01.09.06 20:27:41 MSK)

Ответ на: комментарий от syomin 01.09.06 17:50:05 MSK

> А можно пример странички?
> syomin * (*) (01.09.2006 17:50:05)

Хде исходный код Вашей OCR, кстати? :)

AP ★★★★★
(01.09.06 20:30:42 MSK)

Ответ на: комментарий от vasaka 01.09.06 11:42:31 MSK

> я только не понял, а под какой лицензией они открыли эти исходники

В исходниках сказано, что под Apache License.

Это не C, а C++. Сделал "./configure; make". Получил много warnings (игнорировал) и несколько ошибок компиляции. Не стал долго разбираться. В ccutil/getopt.h добавил #ifndef GLOBALS_H, #endif вокруг проблематичных деклараций, аналогично в ccmain/tfacep.h. Собрался бинарник ccmain/tesseract, который перенёс директорией выше (иначе потом не найдёт данных). Запустил, тот требует /usr/bin/X11/xterm, которого у меня в системе нет, зато есть /usr/bin/xterm. Создал wrapper. Комманда запуска xterm была ошибочна. Заменил сначала xterm wrapper на: echo "$@". Исправил wrapper /usr/bin/X11/xterm, чтобы xterm держался, а не выпадал по ошибке (так и не понял пока для чего это нужно, возможно издержки дебагинга). Запустил: "./tesseract /tmp/my-xterm-screenshot.tiff output batch", получил 3 пустых файла output.*. На этом решил прерваться.

Кто-то заставил tesseract работать?

mihalych ★★★
(01.09.06 20:42:46 MSK)

Похожие темы