LINUX.ORG.RU

Cuneiform 1.0

 ,


0

0

Вышла первая стабильная версия системы распознавания текста Cuneiform для платформы Linux. В новой версии проведена большая работа по исправлению ошибок и чистке исходных текстов, что дало разработчикам основание полагать о стабилизации кодовой базы проекта. Код Cuneiform для Linux распространяется под упрощенной лицензией BSD и основан на коде, открытом компанией Cognitive Technologies в 2007 году.

OCR Cuneiform может распознавать любые полиграфические и машинописные гарнитуры всех начертаний, а также шрифты, получаемые с принтеров, за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий, факсов и машинописи. Поддерживается более 20 языков. Отдельно стоит отметить отличную поддержку распознавания текста на русском и украинском языках. Результат распознавания может быть сохранен в форматах HTML, hOCR, RTF или PDF с сохранением особенностей начертания оригинала (выделение жирным, курсивом и т.д.).

>>> Подробности (opennet)

Рад слышать что проект развивается. Хотя в последний раз, наверно с год назад, пробовал пользоваться — жалкое было зрелище.

nikotyn ()
Ответ на: комментарий от nikotyn

Стоит сейчас 0.9 что-то там. Качество распознавания паршивое, даже до уровня fr6 не дотягивает. Если они к 1.0 только код чистили, как написано в новости, то не думаю, что что-то всерьез изменилось. Полного чейнджлога нигде не найти.

petrosyan ★★★★★ ()

Объясните мне кто-нибудь, она CuneiForm или Cuneiform? В рассылке одно, на офсайте другое. Пока что сделал хотя бы одинаково в тексте новости.

?!

lodin ★★★★ ()
Ответ на: комментарий от petrosyan

Под вендой пользовался лицензионным шедшим со сканером fr5 и не жалуюсь.

CrossFire ★★★★★ ()

Хорошая новость.надо попробоват.стоит 0.9 и работает нормально.плохо что с таблицами не работает-очень серьезный минус.

ratte ()

Черные буквы
Рядами становятся.
Как тепло в пузе!
Пятничным вечером о
Вендекапце думаю.

abraziv_whiskey ★★★★★ ()

пользоваться можно, НО если от сканированный материал хорошего качества и нет таблиц(с таблицами вообще не умеет работать). надеюсь оно и дальше будет развиваться...

ps1h ★★ ()
Ответ на: комментарий от lodin

>Объясните мне кто-нибудь, она CuneiForm или Cuneiform? В рассылке одно, на офсайте другое.

Лучше скажите, оно действительно читается так, как /me подумал?

anonymous ()

fine reader`у капец?

anonymous ()
Ответ на: комментарий от abraziv_whiskey

>Черные буквы

Рядами становятся.

Как тепло в пузе!


Пятничным вечером о


Вендекапце думаю.



Вы ошиблись сайтом, психиатор сидит на другом.

Dimanc ★★ ()
Ответ на: комментарий от Dimanc

>Вы ошиблись сайтом, психиатор сидит на другом.

Зато логопед здесь. Вылезай, але ти москалю вже приїхав.

derrix ()
Ответ на: комментарий от lodin

> Объясните мне кто-нибудь, она CuneiForm или Cuneiform?

Кунилингформ.
гы :)

matumba ★★★★★ ()

А где можно почитать про этот Кунилинформ?

Статьи там, обзоры, мануалы...

derrix ()

Без таблиц и полного форматирования (включая картинки) нафик не нужно.
Кому действительно надо распознавать, давно юзает FineReader.
В своё время игрался с обоими, CF даже что-то там выигрывал, но сейчас FR рвёт CF как тузик грелку.

matumba ★★★★★ ()
Ответ на: комментарий от matumba

Пропаганда гомосексуализма проприетарщины на ЛОРе!

derrix ()

/me рад! Прикручивал к нему YAGF. Работало терпимо.

anonymous ()
Ответ на: комментарий от matumba

> В своё время игрался с обоими, CF даже что-то там выигрывал, но сейчас FR рвёт CF как тузик грелку.
Лицензия BSD, говорите? Может они просто себе код заюзали какой-то?

Xenius ★★★★★ ()

потестил сегодня, прекрасная альтернатива finereader'у, качество распознования - хорошее

alexqwesa ()

Прошел по ссылке на Ланчпад... Там архив с исходниками!

И где пакеты для хомячков?

valich ★★★ ()

Распознавал текст с фотографий (по учёбе надо было). Фотографии листа А4 на 2Мп-камеру мобильника. Распознаёт очень хорошо (стоит 0.9), почти без ошибок. Картинки он вроде тоже пытался вставлять, но я их выкидывал. Пользовался YAGF в качестве фронт-энда.

Zombieff ★★ ()

Кьюниформ

Для тех, кто не владеет английским и не умеет читать статьи в Википедии (там всегда транскрипция и произношение есть). Ударение на первый слог.

Zombieff ★★ ()
Ответ на: Кьюниформ от Zombieff

Да мы уже поняли, что куни

Зачем так орать-то?

derrix ()

Кстати распознавалку таблиц и блоков текста сделать намного проще, чем распознавалку символов. Поэтому думаю, что этот функционал будет скоро реализован.

Evtomax ()

Устроим небольшой тестдрайв. Одно и то же изображение. 600 dpi, бинаризована в ScanTailor. Короче, почти идеальные условия для распознавания. Сверху результат распознавания cuneiform 0.9.0+bzr475.1 (1.0 влом собирать)

http://itmages.ru/image/view/42235/09881a2a

В общем-то, комментарии излишни. У файнридера я насчитал 4 ошибки, три из которых со знаками препинания (одна в кадр не вошла)

petrosyan ★★★★★ ()
Ответ на: комментарий от anonymous

> fine reader`у капец?

К сожалению, вряд ли... Имхо, не очень к лицу технического вуза когда альтернативой научной деятельности становится экономическая (причем, не в лучшем смысле этого слова) [можно еще Lingvo вспомнить, та еще проприетарщина]... Печаль...

// scoliosis those

anonymous ()
Ответ на: комментарий от Evtomax

> Кстати распознавалку таблиц и блоков текста сделать намного проще, чем распознавалку символов. Поэтому думаю, что этот функционал будет скоро реализован.

его вроде-бы пилят в tesseract/ocropus, к сожелению они никак не связаны с CF

qwerky ()
Ответ на: комментарий от petrosyan

> Одно и то же изображение. 600 dpi

а выглядит как 200. на развороте буквы очень хреновые. адаптивную бинаризацию применить не пробовали ?

qwerky ()
Ответ на: комментарий от Dimanc

> Вы ошиблись сайтом, психиатор сидит на другом.

Зато злой дяденька Спелл Чекер всегда здесь, и в паре с дяденькой Граммар Наци готов надавать тебе по гласным, согласным и несогласным :)

AP ★★★★★ ()

по-моему оно ни фига не BSD, а какая-то проприетарщина. На сайте лицензия есть

annulen ★★★★★ ()

по-моему оно ни фига не BSD, а какая-то проприетарщина. На сайте лицензия есть

annulen ★★★★★ ()
Ответ на: комментарий от qwerky

> его вроде-бы пилят в tesseract/ocropus, к сожелению они никак не связаны с CF

Эти 2 алгоритма (распознавание символов и распознавание таблиц) можно использовать независимо друг от друга. Так что не всё так плохо :)

Evtomax ()
Ответ на: комментарий от pevzi

Если верить их сайту в архив.орг, последнее значимое обновление у неё было в январе 2002г. И из отзывов на сайте можно подумать, что оно было лучше fr4/5. А потом ,вполне реально, что разрабы перетекли к главному конкуренту.

anonymous ()
Ответ на: комментарий от AP

Первая запятая не нужна, сложного предложения там нет. Точка в конце пропущена. Лишить дяденьку квартальной премии.

Oleaster ★★★ ()
Ответ на: комментарий от anonymous

Даже пятого не лучше. Распознавали одну и ту же книгу на плохой бумаге, не расшивая, с помощью FR 5 Sprint и CF последней версии (той, которую открыли как раз). Как только страница ложится чуть неровно — CF пасует, FR справляется.

Но будем надеяться на положительные сдвиги.

Oleaster ★★★ ()

Мне бы вполне подошел cuneiform, на 300 и 600 dpi он двухбитные сканы вполне хорошо распознаёт. Но, чёрт возьми, почему он вместо длинного тире везде вставляет «â€”»?
http://img257.imageshack.us/img257/7678/cuneifail.png

Smacker ★★★ ()
Ответ на: комментарий от petrosyan

Что в fr9 по сравнению с fr6 изменилось? Ничего, абсолютно.

anonymous ()
Ответ на: комментарий от petrosyan

В общем-то, комментарии излишни.


В то что Петросян дебил, конечно, излишне, а в том что все ошибки это плохое распознавание переносов, откомментить стоит.

vtVitus ★★★★★ ()
~ $ eix cunei
* app-text/cuneiform
     Available versions:  ~0.7 ~0.8.0 {debug (+)imagemagick}
     Homepage:            https://launchpad.net/cuneiform-linux
     Description:         An enterprise quality OCR engine developed in USSR/Russia in the 90's.
ados ★★★★★ ()
Ответ на: комментарий от Smacker

>Oleaster

Мне бы вполне подошел cuneiform, на 300 и 600 dpi он двухбитные сканы вполне хорошо распознаёт.

Двухбитные сканы в чём сохраняешь? В png али tiff?

baaba ★★ ()
Ответ на: комментарий от Oleaster

Я в мае как раз на местную студенческую конференцию готовил доклад по компенсации скашивания изображений при распознавании)

hexenlord ()
Ответ на: комментарий от vtVitus

Да, большинство ошибок вызвано именно переносами. Делаем вывод, что плейнтекст сабж распознает хорошо, а на оформлении в виде переносов, картинок и таблиц спотыкается. Надеюсь, еще допилят.

pevzi ★★★★★ ()
Ответ на: комментарий от vtVitus

У тебя с глазами все в порядке? Или кроме кривой обработки переносов ты ничего больше не видишь?

petrosyan ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.