Cuneiform 1.0

0

0

Вышла первая стабильная версия системы распознавания текста Cuneiform для платформы Linux. В новой версии проведена большая работа по исправлению ошибок и чистке исходных текстов, что дало разработчикам основание полагать о стабилизации кодовой базы проекта. Код Cuneiform для Linux распространяется под упрощенной лицензией BSD и основан на коде, открытом компанией Cognitive Technologies в 2007 году.

OCR Cuneiform может распознавать любые полиграфические и машинописные гарнитуры всех начертаний, а также шрифты, получаемые с принтеров, за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий, факсов и машинописи. Поддерживается более 20 языков. Отдельно стоит отметить отличную поддержку распознавания текста на русском и украинском языках. Результат распознавания может быть сохранен в форматах HTML, hOCR, RTF или PDF с сохранением особенностей начертания оригинала (выделение жирным, курсивом и т.д.).

>>> Подробности (opennet)

Ссылка

← YouTube не будет отказываться от Flash

Релиз libjpeg-turbo 1.0.0 →

← 1 2 →

Рад слышать что проект развивается. Хотя в последний раз, наверно с год назад, пробовал пользоваться — жалкое было зрелище.

nikotyn ★
(02.07.10 17:04:43 MSK)

Ответ на: комментарий от nikotyn 02.07.10 17:04:43 MSK

Стоит сейчас 0.9 что-то там. Качество распознавания паршивое, даже до уровня fr6 не дотягивает. Если они к 1.0 только код чистили, как написано в новости, то не думаю, что что-то всерьез изменилось. Полного чейнджлога нигде не найти.

petrosyan ★★★★★
(02.07.10 17:18:06 MSK)

Объясните мне кто-нибудь, она CuneiForm или Cuneiform? В рассылке одно, на офсайте другое. Пока что сделал хотя бы одинаково в тексте новости.

?!

lodin ★★★★
(02.07.10 17:33:37 MSK)

Ответ на: комментарий от petrosyan 02.07.10 17:18:06 MSK

Под вендой пользовался лицензионным шедшим со сканером fr5 и не жалуюсь.

CrossFire ★★★★★
(02.07.10 18:10:53 MSK)

Ссылка

Хорошая новость.надо попробоват.стоит 0.9 и работает нормально.плохо что с таблицами не работает-очень серьезный минус.

~~ratte~~ ★
(02.07.10 18:36:36 MSK)

Ссылка

Черные буквы
Рядами становятся.
Как тепло в пузе!
Пятничным вечером о
Вендекапце думаю.

abraziv_whiskey ★★★★★
(02.07.10 19:45:35 MSK)

пользоваться можно, НО если от сканированный материал хорошего качества и нет таблиц(с таблицами вообще не умеет работать). надеюсь оно и дальше будет развиваться...

ps1h ★★★
(02.07.10 22:19:26 MSK)

Ссылка

Ответ на: комментарий от lodin 02.07.10 17:33:37 MSK

>Объясните мне кто-нибудь, она CuneiForm или Cuneiform? В рассылке одно, на офсайте другое.

Лучше скажите, оно действительно читается так, как /me подумал?

anonymous
(02.07.10 22:21:09 MSK)

Ссылка

fine reader`у капец?

anonymous
(02.07.10 22:21:25 MSK)

Ответ на: комментарий от anonymous 02.07.10 22:21:25 MSK

>fine reader`у капец?

рано еще

petrosyan ★★★★★
(02.07.10 22:24:11 MSK)

Ссылка

Ответ на: комментарий от abraziv_whiskey 02.07.10 19:45:35 MSK

Давай ещё! Круто!

Ilshat
(02.07.10 22:25:16 MSK)

Ссылка

Ответ на: комментарий от abraziv_whiskey 02.07.10 19:45:35 MSK

>Черные буквы

Рядами становятся.

Как тепло в пузе!

Пятничным вечером о

Вендекапце думаю.

Вы ошиблись сайтом, психиатор сидит на другом.

Dimanc ★★
(02.07.10 22:32:22 MSK)

Ответ на: комментарий от Dimanc 02.07.10 22:32:22 MSK

>Вы ошиблись сайтом, психиатор сидит на другом.

Зато логопед здесь. Вылезай, але ти москалю вже приїхав.

derrix
(02.07.10 22:45:25 MSK)

Ссылка

Ответ на: комментарий от lodin 02.07.10 17:33:37 MSK

> Объясните мне кто-нибудь, она CuneiForm или Cuneiform?

Кунилингформ.
гы :)

matumba ★★★★★
(02.07.10 22:48:26 MSK)

Ссылка

А где можно почитать про этот Кунилинформ?

Статьи там, обзоры, мануалы...

derrix
(02.07.10 22:48:29 MSK)

Ура!

pevzi ★★★★★
(02.07.10 22:50:38 MSK)

Ссылка

Без таблиц и полного форматирования (включая картинки) нафик не нужно.
Кому действительно надо распознавать, давно юзает FineReader.
В своё время игрался с обоими, CF даже что-то там выигрывал, но сейчас FR рвёт CF как тузик грелку.

matumba ★★★★★
(02.07.10 22:51:44 MSK)

Ответ на: А где можно почитать про этот Кунилинформ? от derrix 02.07.10 22:48:29 MSK

Мне бы хотелось почитать истории успеха.

pevzi ★★★★★
(02.07.10 22:52:20 MSK)

Ответ на: комментарий от matumba 02.07.10 22:51:44 MSK

Пропаганда ~~гомосексуализма~~ проприетарщины на ЛОРе!

derrix
(02.07.10 22:54:30 MSK)

Ссылка

/me рад! Прикручивал к нему YAGF. Работало терпимо.

anonymous
(02.07.10 23:19:36 MSK)

Ссылка

Ответ на: комментарий от matumba 02.07.10 22:51:44 MSK

> В своё время игрался с обоими, CF даже что-то там выигрывал, но сейчас FR рвёт CF как тузик грелку.
Лицензия BSD, говорите? Может они просто себе код заюзали какой-то?

Xenius ★★★★★
(02.07.10 23:21:11 MSK)

потестил сегодня, прекрасная альтернатива finereader'у, качество распознования - хорошее

alexqwesa
(02.07.10 23:21:13 MSK)

Ссылка

Прошел по ссылке на Ланчпад... Там архив с исходниками!

И где пакеты для хомячков?

valich ★★★
(02.07.10 23:27:30 MSK)

Распознавал текст с фотографий (по учёбе надо было). Фотографии листа А4 на 2Мп-камеру мобильника. Распознаёт очень хорошо (стоит 0.9), почти без ошибок. Картинки он вроде тоже пытался вставлять, но я их выкидывал. Пользовался YAGF в качестве фронт-энда.

Zombieff ★★
(02.07.10 23:30:48 MSK)

Ссылка

Кьюниформ

Для тех, кто не владеет английским и не умеет читать статьи в Википедии (там всегда транскрипция и произношение есть). Ударение на первый слог.

Zombieff ★★
(02.07.10 23:34:14 MSK)

Ответ на: Кьюниформ от Zombieff 02.07.10 23:34:14 MSK

Да мы уже поняли, что куни

Зачем так орать-то?

derrix
(02.07.10 23:56:20 MSK)

Ссылка

Кстати распознавалку таблиц и блоков текста сделать намного проще, чем распознавалку символов. Поэтому думаю, что этот функционал будет скоро реализован.

Evtomax ★
(03.07.10 00:32:33 MSK)

Ответ на: комментарий от valich 02.07.10 23:27:30 MSK

внезапно ftp://mirror.yandex.ru/fedora/russianfedora/russianfedora/free/fedora/release... думаю скоро будет и 0.9

lv77 ★★★
(03.07.10 00:37:29 MSK)

Ссылка

Устроим небольшой тестдрайв. Одно и то же изображение. 600 dpi, бинаризована в ScanTailor. Короче, почти идеальные условия для распознавания. Сверху результат распознавания cuneiform 0.9.0+bzr475.1 (1.0 влом собирать)

http://itmages.ru/image/view/42235/09881a2a

В общем-то, комментарии излишни. У файнридера я насчитал 4 ошибки, три из которых со знаками препинания (одна в кадр не вошла)

petrosyan ★★★★★
(03.07.10 00:45:19 MSK)

Ответ на: комментарий от anonymous 02.07.10 22:21:25 MSK

> fine reader`у капец?

К сожалению, вряд ли... Имхо, не очень к лицу технического вуза когда альтернативой научной деятельности становится экономическая (причем, не в лучшем смысле этого слова) [можно еще Lingvo вспомнить, та еще проприетарщина]... Печаль...

// scoliosis those

anonymous
(03.07.10 01:09:58 MSK)

Ссылка

Ответ на: комментарий от Evtomax 03.07.10 00:32:33 MSK

> Кстати распознавалку таблиц и блоков текста сделать намного проще, чем распознавалку символов. Поэтому думаю, что этот функционал будет скоро реализован.

его вроде-бы пилят в tesseract/ocropus, к сожелению они никак не связаны с CF

qwerky ★
(03.07.10 01:20:18 MSK)

Ответ на: комментарий от petrosyan 03.07.10 00:45:19 MSK

> Одно и то же изображение. 600 dpi

а выглядит как 200. на развороте буквы очень хреновые. адаптивную бинаризацию применить не пробовали ?

qwerky ★
(03.07.10 01:23:12 MSK)

Ссылка

Хорошая новость.

Mercenary_Mercury
(03.07.10 01:28:52 MSK)

Ссылка

Ответ на: комментарий от Dimanc 02.07.10 22:32:22 MSK

> Вы ошиблись сайтом, психиатор сидит на другом.

Зато злой дяденька Спелл Чекер всегда здесь, и в паре с дяденькой Граммар Наци готов надавать тебе по гласным, согласным и несогласным :)

AP ★★★★★
(03.07.10 01:51:46 MSK)

по-моему оно ни фига не BSD, а какая-то проприетарщина. На сайте лицензия есть

annulen ★★★★★
(03.07.10 02:09:21 MSK)

Ссылка

по-моему оно ни фига не BSD, а какая-то проприетарщина. На сайте лицензия есть

annulen ★★★★★
(03.07.10 02:09:26 MSK)

Ответ на: комментарий от qwerky 03.07.10 01:20:18 MSK

> его вроде-бы пилят в tesseract/ocropus, к сожелению они никак не связаны с CF

Эти 2 алгоритма (распознавание символов и распознавание таблиц) можно использовать независимо друг от друга. Так что не всё так плохо :)

Evtomax ★
(03.07.10 02:17:33 MSK)

Ссылка

Ответ на: комментарий от pevzi 02.07.10 22:52:20 MSK

Если верить их сайту в архив.орг, последнее значимое обновление у неё было в январе 2002г. И из отзывов на сайте можно подумать, что оно было лучше fr4/5. А потом ,вполне реально, что разрабы перетекли к главному конкуренту.

anonymous
(03.07.10 02:32:57 MSK)

Ответ на: комментарий от AP 03.07.10 01:51:46 MSK

Первая запятая не нужна, сложного предложения там нет. Точка в конце пропущена. Лишить дяденьку квартальной премии.

~~Oleaster~~ ★★★
(03.07.10 03:33:16 MSK)

Ссылка

Ответ на: комментарий от anonymous 03.07.10 02:32:57 MSK

Даже пятого не лучше. Распознавали одну и ту же книгу на плохой бумаге, не расшивая, с помощью FR 5 Sprint и CF последней версии (той, которую открыли как раз). Как только страница ложится чуть неровно — CF пасует, FR справляется.

Но будем надеяться на положительные сдвиги.

~~Oleaster~~ ★★★
(03.07.10 04:30:11 MSK)

Мне бы вполне подошел cuneiform, на 300 и 600 dpi он двухбитные сканы вполне хорошо распознаёт. Но, чёрт возьми, почему он вместо длинного тире везде вставляет «â€”»?
http://img257.imageshack.us/img257/7678/cuneifail.png

Smacker ★★★★★
(03.07.10 04:33:07 MSK)

Ответ на: комментарий от valich 02.07.10 23:27:30 MSK

В репозиториях, не?

ptah_alexs ★★★★★
(03.07.10 08:31:35 MSK)

Ссылка

Ответ на: комментарий от petrosyan 02.07.10 17:18:06 MSK

Что в fr9 по сравнению с fr6 изменилось? Ничего, абсолютно.

anonymous
(03.07.10 08:44:31 MSK)

Ответ на: комментарий от petrosyan 03.07.10 00:45:19 MSK

В общем-то, комментарии излишни.

В то что Петросян дебил, конечно, излишне, а в том что все ошибки это плохое распознавание переносов, откомментить стоит.

vtVitus ★★★★★
(03.07.10 09:15:49 MSK)

Ответ на: комментарий от vtVitus 03.07.10 09:15:49 MSK

Лорчик я в отчаянье: http://omploader.org/vNHRtNQ ничего каншн неработает!!

baaba ★★★
(03.07.10 11:05:39 MSK)

Ссылка

~ $ eix cunei
* app-text/cuneiform
     Available versions:  ~0.7 ~0.8.0 {debug (+)imagemagick}
     Homepage:            https://launchpad.net/cuneiform-linux
     Description:         An enterprise quality OCR engine developed in USSR/Russia in the 90's.

ados ★★★★★
(03.07.10 11:11:09 MSK)

Ссылка

Ответ на: комментарий от Smacker 03.07.10 04:33:07 MSK

>Oleaster

Мне бы вполне подошел cuneiform, на 300 и 600 dpi он двухбитные сканы вполне хорошо распознаёт.

Двухбитные сканы в чём сохраняешь? В png али tiff?

baaba ★★★
(03.07.10 11:12:31 MSK)

Ссылка

Ответ на: комментарий от Oleaster 03.07.10 04:30:11 MSK

Я в мае как раз на местную студенческую конференцию готовил доклад по компенсации скашивания изображений при распознавании)

~~hexenlord~~ ★
(03.07.10 11:18:41 MSK)

Ссылка

Ответ на: комментарий от vtVitus 03.07.10 09:15:49 MSK

Да, большинство ошибок вызвано именно переносами. Делаем вывод, что плейнтекст сабж распознает хорошо, а на оформлении в виде переносов, картинок и таблиц спотыкается. Надеюсь, еще допилят.

pevzi ★★★★★
(03.07.10 11:52:08 MSK)