LINUX.ORG.RU

Открыт код ядра системы распознавания текстов Cuneiform

 ,


0

0

Компания Cognitive Technologies объявила об открытии кода ядра системы распознавания печатных текстов Cuneiform. Скачать архив с исходными текстами можно отсюда (37 Мб). В настоящий момент для сборки требуется Microsoft Visual C++ версии 6.0 или новее. Для распространения программы выбрана собственная, но BSD-подобная лицензия (Berkeley Software Distribution). Сама программа Cuneiform Master v.12 остаётся под закрытой лицензией, хотя и бесплатной и по-прежнему доступной: http://www.cuneiform.ru/downl... (34 Мб)

На текущий момент заявку на участие в проекте уже подали более 30 человек из разных стран мира. В планах на 2008 г. подготовка первой версии OCR с открытым кодом на базе Cuneiform, при разработке которой приоритетными направлениями будут: создание современного интерфейса, поддержка Linux и добавление новых языков распознавания.

отредактировано anonymouse_incognito

>>> Подробности

Ответ на: комментарий от Evgueni

> Не только это. Теперь можно роботов читать обучать :)

Дык Геку и научат, думаешь чего он радуется так?

Gharik
()
Ответ на: комментарий от wfrr

>>Ещё один гвоздь в гроб винды..

> Да там уже гроб из гвоздей, наверное даже не один, но блин, когда же закапывать то будут?

Как только сделают крышку гроба на 100% состоящей из гвоздей. Колючему кактусу - колючий гроб.

AiFiLTr0 ★★★★★
()
Ответ на: комментарий от sid350

s/пока не перепрыгнули :)/а то кастанете и пристанет/

AiFiLTr0 ★★★★★
()

Статистика ЛОР-а - на одну печальную новость приходится 10 радостных. :)

Aceler ★★★★★
()
Ответ на: комментарий от AiFiLTr0

Дык, яж и говорю, гроб из гвоздей уже и не один.

wfrr ★★☆
()

А мою аналогичную новость где-то в декабре завернули по причине "венда, при чем тут опен сурс" (ну как-то так), тогда они только открыли все это, с лицензией еще не определились.

Ну а теперь посмотрим, что из этого получится. Умел бы программировать более менее сносно, с удовольствием бы покрутил и попробовал помочь с переносом...

it-partizan
()

> Для распространения программы выбрана собственная, но BSD-подобная лицензия (Berkeley Software Distribution)

надо же, при вменяемом описании движка слепить незамореченное GUI можно за месяц. Главное чтоб оно оказалось не HIG'утым, т.е. им было пользоваться большинству людей, а не только гномо-филам.

ЗЫ если BSD-подобная лицензия, то можно ли на основе её выпустить программу полностью под GPL? это чтоб можно было сделать qt/kde-морду к движку

vadiml ★★★★★
()
Ответ на: комментарий от it-partizan

> А мою аналогичную новость где-то в декабре завернули по причине "венда, при чем тут опен сурс" (ну как-то так), тогда они только открыли все это, с лицензией еще не определились.

Тогда видно немного не поняли, потому что потом новость на эту тему уже была: http://www.linux.org.ru/view-message.jsp?msgid=2324719

А сегодня были именно исходники открыты.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от vadiml

> ЗЫ если BSD-подобная лицензия, то можно ли на основе её выпустить программу полностью под GPL? это чтоб можно было сделать qt/kde-морду к движку

Читай текст лицензии http://www.linux.org.ru/jump-message.jsp?msgid=2631717&cid=2631978 или лучше спроси у них на сайте. Я не помню, требование включать уведомление противоречит или нет GPL.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от anonymous_incognito

> Я немного покрутил cuneiform, меня качество распознавания приятно удивило, оно в общем-то на уровне finereader'а, ну может несколько хуже, но не сильно. Finereader лучше сохраняет сложное форматирование, но если формат не очень сложный и качество сканирования нормальное, cuneiform распознаёт на уровне finereader'а, может быть даже лучше, но это надо серьёзные тесты на большом количестве материала устраивать, чтобы выявить победителя. Есть и явное преимущество в том, что распознаёт существенно быстрее, чем 9-ая версия finereader'а.

Вы возьмите 4й finereader, он как раз современник текущего Cuneiform. Распознаёт тексты он тоже очень прилично и гораздо быстрее современных версий FR. Так же он прекрасно работает в wine.

Развитие движка FR за всё это время шло в сторону утяжеления кода неадеквано качеству -- появился анализ на уровне слов, чуть улучшилось распознавание таблиц (т.е. простые таблицы стали вменяемо распознаваться, сложные всё так же нет), стал распознаваться менее контрастный текст от цифровых фотоаппаратов, а вот скорость распознования, похоже, упала на порядок, если не более.

vadiml ★★★★★
()
Ответ на: комментарий от JackYF

> На фига в _ядре_ распознавалки COM-сервисы и OLE?

наверное для прямой отправки текстов в word & Co.

vadiml ★★★★★
()

А хоть бы одна падлюка написало не "ждем ебилдов (нахаляву)", а "пошел посмотреть, может я первый успею портировать в линух"... Ледащо...

TI_Eugene ★★
()
Ответ на: комментарий от anonymous_incognito

интерфейс это фигня, главное ядро чтоб хорошее было.

HP
()
Ответ на: комментарий от TI_Eugene

> А хоть бы одна падлюка написало не "ждем ебилдов (нахаляву)", а "пошел посмотреть, может я первый успею портировать в линух"... Ледащо...

"Сами всё предложат и сами всё дадут" (с) М.А. Булгаков

hexenlord
()
Ответ на: комментарий от anonymous

> новость сто летняя уже..видима машина времени на ЛОРе сломалась

Да? и когда вы до 15-00 MSK 02-04-2008 видели исходники CuneiForm?

yaleks
()
Ответ на: комментарий от Evgueni

>Очень полезно. Учителя в интервью все как один указывают на нехватку систем распознавания, хотя я так и не понял зачем. Но если указывают, значит действительно не хватает :)

А я верю, что надо.

Сыну училка вклеивает в тетрадь бумажки с заданиями. Попробовал найти их в инете - нету. Какие-то методички ксерят и расклеивают.

AVL2 ★★★★★
()

о, капчи можно будет распознавать :)

Adjkru ★★★★★
()

Наконец!!!

Сказали, что после открытия котов будут работать над стабильностью работы в висте - с нетерпением ждал сего момента.

anonymous
()
Ответ на: комментарий от anonymous

Какие еще коты, и как их надо открывать?

anonymous
()
Ответ на: комментарий от Rikz

>При чем здесь djvu? Он ни разу не распознает текст.

Алгоритм djvu отдалённо напоминает ocr, будед время найду описание используемых алгоритиов (нам пример на карте Ирака - надписи попадают в слой, сжимаемый без потерь а раскраска - в слой, сжимаемый наподобии jpeg). Как минимум можно выделять текстовые блоки и сжимать их как ч/б а рисунки оставить цветными/серыми. Кроме того djvu поддерживает текстовый слой

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от JackYF

>>На фига в _ядре_ распознавалки COM-сервисы и OLE?

ты не понимаешь? это ведь так модно в виндз - Microsoft изобретает новую технологию, пиарит её как как революцию, сверхсовременную, переворот в IT и т.д. Всё и вся переписывается на ней... Так было с COM, теперь так с .NET. И не важно, что для данной конкретной задачи COM совершенно не нужен, и можно сделать проще/лаконичней/портируемей; нет, главное - использовать передовые технологии, а то поцаны не поймут.

alex_custov ★★★★★
()
Ответ на: комментарий от anonymous

Под Wine существующая вендовая версия у кого-нибудь работает? А то у меня запускается, но распознавать не хочет.

>Сказали, что после открытия котов будут работать над стабильностью работы в висте

В висте (по крайней мере, в 64-битной) даже не устанавливается.

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от AiFiLTr0

>>>Ещё один гвоздь в гроб винды..

>> Да там уже гроб из гвоздей, наверное даже не один, но блин, когда же закапывать то будут?

> Как только сделают крышку гроба на 100% состоящей из гвоздей. Колючему кактусу - колючий гроб.

Да! Пожизненный эцих с гвоздями!

anonymous
()
Ответ на: комментарий от anonymous

>>>>Ещё один гвоздь в гроб винды..

>>> Да там уже гроб из гвоздей, наверное даже не один, но блин, когда же закапывать то будут?

>> Как только сделают крышку гроба на 100% состоящей из гвоздей. Колючему кактусу - колючий гроб.

>Да! Пожизненный эцих с гвоздями!
А положить то туда ничего не забыли ? А то запах уже. =)

Atlant ★★★★★
()

Ждем появления автоматических регистрялок и флудилок для форумов с циферками в картинке при регистрации :(

TERRANZ ★★★★
()
Ответ на: комментарий от TERRANZ

>Ждем появления автоматических регистрялок и флудилок для форумов с циферками в картинке при регистрации :(

Для скачки с файлобменников наподобии рапиды есть USDownloader - он вроде капчи распознаёт

DNA_Seq ★★☆☆☆
()

а лоровскую капчу оно разбирает?

wakhan
()
Ответ на: комментарий от JackYF

> Меня другое смущает. На фига в _ядре_ распознавалки COM-сервисы и OLE?

ну пипец, если не понимаешь о чем разговор дак завем влазить в него. На смаом деле все просто. В ситуации когда в моем приложении потребуется распознование текста я создам COM обьект куниформа передам ему изображение а обратно получу уже распознаный текст. Захотел встроил в "себя" ядро куниформа, получил новый OCR програмку с ядром куни.

anonymous
()
Ответ на: комментарий от anonymous

> ну пипец, если не понимаешь о чем разговор дак завем влазить в него. На смаом деле все просто. В ситуации когда в моем приложении потребуется распознование текста я создам COM обьект куниформа передам ему изображение а обратно получу уже распознаный текст. Захотел встроил в "себя" ядро куниформа, получил новый OCR програмку с ядром куни.

Для тебя специально выделили слово "в _ядре_". Ядро -- это чистая математика, которая вообще должна по сути быть совершенно независима от какой-либо архитектуры (по крайней мере на тот момент ни многопроцессорность, ни прочие тех. изыски были простым пользователям недоступны). Нахрена в ЯДРЕ вся эта чушня? Интерфейс должен быть оболочкой вокруг ядра. Там уже можно извращаться как угодно.

zloy_starper ★★★
()
Ответ на: комментарий от vadiml

> ЗЫ если BSD-подобная лицензия, то можно ли на основе её выпустить программу полностью под GPL? это чтоб можно было сделать qt/kde-морду к движку

Вы можете линковать BSD код с чем угодно.

Aceler ★★★★★
()
Ответ на: комментарий от anonymous

>Захотел встроил в "себя" ядро куниформа, получил новый OCR програмку с ядром куни.

Нет чтобы отдельную либу распространять с хедерами или демона смастерить наподобие cupsd. А уж морду аляповатую народ прикрутит, если распознавалка стоящая получится. Впрочем о чем это я, в виндах все не как у людей, а повторное использование кода из разряда исключений.

anonymous
()

Господа, если кто писал для winelib, насколько реально --ЭТО-- портировать на неё?

Hokum ☆☆☆☆
()
Ответ на: комментарий от anonymous

> кажется, это уже давно было воз и ныне там

что-то невнятно прошамкал

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.