LINUX.ORG.RU

Cuneiform Linux 0.3

 ,


0

0

Продолжается работа по адаптации OCR-движка Cuneinform к POSIX-совместимым системам. В новой версии Юсси Пакканен добавил поддержку 64-битных систем, а также возможность экспортировать в HTML результаты распознавания текста, включая жирные и курсивные выделения.

Исходные коды доступны по адресу: https://launchpad.net/cuneiform-linux...

>>> Подробности

★★

Проверено: JB ()

Re: Cuneiform Linux 0.3

Пилите ещё, пилите...

JackYF ★★★★ ()

Re: Cuneiform Linux 0.3

ЗАЧЕМ ? сносно работающая под Linux, ВЕЩЬ - есть. и под канонической GPLv3

BasileyOne ()
Ответ на: Re: Cuneiform Linux 0.3 от BasileyOne

Re: Cuneiform Linux 0.3

Это вы о чём? О gocr, который не понимает русский и с многоколоночными текстами работает так, что лучше бы и не работал?

router ★★★★★ ()

Re: Cuneiform Linux 0.3

Собрал под арчем, а оно сегфолтится перманентно, разбираться влом, но надеюсь допилят.

anonymous ()

Re: Cuneiform Linux 0.3

Гуя так и нет?

anonymous ()

Re: Cuneiform Linux 0.3

> включая жирные и курсивные выделения.

Ох уж эти выделения. Лечат, лечат, а выделения все жирнее и курсивее.

andreyu ★★★★★ ()
Ответ на: Re: Cuneiform Linux 0.3 от BasileyOne

Re: Cuneiform Linux 0.3

Ну так пример в студию. В предыдущем сообщении вы говорили о каком-то уже работающем проекте.

router ★★★★★ ()

Re: Cuneiform Linux 0.3

О! Скорость развития внушает оптимизм! Надо скачать и попробовать.

fractaler ★★★★★ ()
Ответ на: Re: Cuneiform Linux 0.3 от Killer-mazila

Re: Cuneiform Linux 0.3

Ты писать программы собираешься или список? ;)

Напиши, пожалуйста, и то и другое! Для начала список...

zhjake ()

Re: Cuneiform Linux 0.3

АВТОРЫ НОВОСТИ! пРЕЖДЕ ЧЕМ СООБЩАТЬ, ПРОВЕРЯЙТЕ НА РАБОТОСПОСОБНОСТЬ! пОКА НЕ БЫЛО СООБЩЕНИЙ ОБ УСПЕШНОЙ РАБОТЕ, ТОЛЬКО СЕГФОЛТЫ.

yaleks ()
Ответ на: Re: Cuneiform Linux 0.3 от BasileyOne

Re: Cuneiform Linux 0.3

> отнюдь GPL Ocr проектов - СИЛЬНО больше одного.

Дайте список. Платные тоже включите, если они в пределах $250.

skwish ★★ ()

Re: Cuneiform Linux 0.3

Теперь о каждом коммите в дерево сорсов писать будете? Может дотянете проект до хоть чуть-чуть работоспособного состояния, а потом писать уже новости?

Metallic ()
Ответ на: Re: Cuneiform Linux 0.3 от Metallic

Re: Cuneiform Linux 0.3

> Теперь о каждом коммите в дерево сорсов писать будете? Может дотянете проект до хоть чуть-чуть работоспособного состояния, а потом писать уже новости?

Поддерживаю. Хотел написать о выходе 0.3 ещё за день до того, как эта новость на опеннете появилась, но скомпилив и попробовав хоть что-то распознать, получил сегфолт. Решил что лучше не надо :)

XEN ()
Ответ на: Re: Cuneiform Linux 0.3 от yaleks

Re: Cuneiform Linux 0.3

>АВТОРЫ НОВОСТИ! пРЕЖДЕ ЧЕМ СООБЩАТЬ...

"У вас ус^W капс отклеился" =)

FiXer ★★☆☆☆ ()
Ответ на: Re: Cuneiform Linux 0.3 от Killer-mazila

Re: Cuneiform Linux 0.3

>А написать примеры свободных ocr понимающих русский?

одни заняты флеймом на лоре, другие развитием имиджа. некому писать. сам пиши.

anonymous ()

Re: Cuneiform Linux 0.3

Оно хоть у одного человека заработало без сегфолтов?

lystor ★★ ()
Ответ на: Re: Cuneiform Linux 0.3 от anonymous

Re: Cuneiform Linux 0.3

> одни заняты флеймом на лоре, другие развитием имиджа. некому писать. сам пиши.

Погуглил.

OCRE ( http://lem.eui.upm.es/ocre.html ) на сайте сказано, что оно умеет русский.

Ещё была рабочая, судя по отзывам разработка, даже на ЛОРе писали про неё http://www.linux.org.ru/view-message.jsp?msgid=1592861 но живых линков я не нашёл.

Далее Clara OCR ( http://www.geocities.com/claraocr/ ) - в пакет включены наработки по распознаванию кириллического текста.

Кроме этого есть группа http://groups.google.com/group/tesseract-ocr-russian/ которые занимались обучением русскому tesseract'а и фраза на http://sites.google.com/site/ocropus/languages о том что "OCRopus supports all the languages and scripts that Tesseract supports through the Tesseract plugin, and it supports Latin script and English for its native recognizers"

Ну вроде всё.

Killer-mazila ()

Re: Cuneiform Linux 0.3

ждем 1.0

sid350 ★★★★★ ()

Re: Cuneiform Linux 0.3

сегфолт, сегфолт, сегфолт говорит оно мне третий день на amd64...

ergil ★★★ ()

Re: Cuneiform Linux 0.3

> В новой версии Юсси Пакканен добавил поддержку 64-битных систем

/me внимательно следит за успехами, готов помочь материально

anonymous ()
Ответ на: Re: Cuneiform Linux 0.3 от Killer-mazila

Re: Cuneiform Linux 0.3

>> одни заняты флеймом на лоре, другие развитием имиджа. некому писать. сам пиши.

>Погуглил.

гуглить могут все.

anonymous ()
Ответ на: Re: Cuneiform Linux 0.3 от anonymous

Re: Cuneiform Linux 0.3

>гуглить могут все.

Ошибаешься. Некоторые знают только mail.ru, torrents.ru, bash.org.ru, ну, и особо продвинутые может быть rbc.ru и какая-нть lenta.ru.

anonymous ()
Ответ на: Re: Cuneiform Linux 0.3 от Killer-mazila

Re: Cuneiform Linux 0.3

>Погуглил. > OCRE ( http://lem.eui.upm.es/ocre.html ) на сайте сказано, что оно >умеет русский. Движок Fine Reader 6-7 версии ,правда лицензия для разработчиков ,закрытая (неразглашение исходников ) и сильно денежная от 15000 зеленых .Вроде только только один из банков и купил .....

maximnik0 ★★ ()
Ответ на: Re: Cuneiform Linux 0.3 от yaleks

Re: Cuneiform Linux 0.3

>АВТОРЫ НОВОСТИ! пРЕЖДЕ ЧЕМ СООБЩАТЬ, ПРОВЕРЯЙТЕ НА РАБОТОСПОСОБНОСТЬ! пОКА НЕ БЫЛО СООБЩЕНИЙ ОБ УСПЕШНОЙ РАБОТЕ, ТОЛЬКО СЕГФОЛТЫ.

а патч накатать и авторам отослать? чай не вантузятники

black7 ()
Ответ на: Re: Cuneiform Linux 0.3 от anonymous

Re: Cuneiform Linux 0.3

>Ошибаешься. Некоторые знают только mail.ru, torrents.ru, bash.org.ru,

а вот список из gmail, TPB и 2ch выдает типичное чмо

DNA_Seq ★★☆☆☆ ()
Ответ на: Re: Cuneiform Linux 0.3 от black7

Re: Cuneiform Linux 0.3

> а патч накатать и авторам отослать? чай не вантузятники

Кой чего рабочее на основе предыдущей версии накатал. В версии 0.3 всё поломалось из-за "поддержки 64-битных систем", если этот патч откатить, то работает.

yaleks ()

Re: Cuneiform Linux 0.3

Cuneiform - та еще какашка. Да и загнулась она потому что распознавала на порядок хуже FineReadera. А внутрях термоядерная смесь С и С++, последний раз собиравшееся под VisualStudio 6 с сервиспаками. Документации к этим кодным выделениям никакой. Завязка на Windows.

Теперь еще этот проект. Нет чтобы кроссплатформенным стать, так опять вяжут к платформе. Через полтора года запустят более-менее стабильный порт(это если разработчик интерес не потеряет). Еще год и появится гуй и будет у free software под лицензией BSD горе распознавалка 95-98 года.

Может лучше создать с нуля, чем реанимировать труп?

Sancho_s_rancho ()
Ответ на: Re: Cuneiform Linux 0.3 от BasileyOne

Re: Cuneiform Linux 0.3

> канонической GPL

Нифига я не ошибался, бы все сектанты :(

GFORGX ★★☆ ()
Ответ на: Re: Cuneiform Linux 0.3 от Sancho_s_rancho

Re: Cuneiform Linux 0.3

> Еще год и появится гуй и будет у free software под лицензией BSD горе распознавалка 95-98 года.

Нынче только распознавалки 80-х, что неплохо :)

yaleks ()

Re: Cuneiform Linux 0.3

Английский распознает неплохо. Русский - сегфолтится

dmitryilyin ()
Ответ на: Re: Cuneiform Linux 0.3 от GFORGX

Re: Cuneiform Linux 0.3

GFORGX> Нифига я не ошибался, бы все сектанты :(

Преклонись на колено Святому Патрику за сие оскорбление, установи на свой комп первослаку и воспей Патрика трижды!

Quasar ★★★★★ ()
Ответ на: Re: Cuneiform Linux 0.3 от BasileyOne

Re: Cuneiform Linux 0.3

> ЗАЧЕМ ? сносно работающая под Linux, ВЕЩЬ - есть. и под канонической GPLv3

Вы всё ещё не закопали себя?

AP ★★★★★ ()
Ответ на: Re: Cuneiform Linux 0.3 от Sancho_s_rancho

Re: Cuneiform Linux 0.3

> Может лучше создать с нуля, чем реанимировать труп?

На моей памяти не менее шести таких попыток. Догадываетесь, чем всё кончилось? Создание OCR - ресурсоемкая задача. Много ума, чтобы написать наколенную поделку, не надо. Такие штуки пошутся тоннами в качестве дипломов и курсовых.

Сделать реально работающий проект - вот задача. Которую сообщество пока не осилило.

AP ★★★★★ ()
Ответ на: Re: Cuneiform Linux 0.3 от AP

Re: Cuneiform Linux 0.3

Да, попыток было много. Результата - 0.

Первое, что раздражает в текущих свободных программах по распознаванию текста - поддержка граф. форматов. Православный pbm - это конечно круто, но пользователю конвертировать картинки с использованием еще одной софтины зачастую моветон. Самый простой выход из этой ситуации - это взять тулкит с поддержкой наиболее распространенных графических форматов. Например Qt поддерживает jpeg, png, tiff, bmp и другие. Минусы - tiff многостраничный не поддерживается(на сколько я помню). Нет, конечно можно прикручивать поддержку гр. форматов самостоятельно, но при ограниченных человеческих ресурсах это не самая лучшая задумка. Впоследствии накрутить можно что угодно.

Второе. Работа со сканером. Если программу изначально разрабатывать как многоплатформенную, то как прикручивать работу со сканером? См. пункт первый, раздел моветон. В данном случае ,конечно, пользователем можно "пожертвовать" т.е. сканеры идут обычно с софтиной для сканирования. Пусть пользуют и не морщатся.

Третье. Софтина ,кровь из носа, должна быть с граф. мордой и поддерживать добавление нескольких файлов и каталогов. Если текст идет в несколько колонок, имеет графику, таблицы, то софтине (даже такой неплохой, как FR) зачастую не удается правильно разложить страницу "по косточкам". Пользователь должен иметь возможность удобно и быстро сделать разбивку вручную. Это занимает минимум времени, но значительно улучшает качество.

Четвертое. Распознавание. Повернуть страницу на нужный угол достаточно просто. Разбить на символы проблематичнее. Если разбивка на символы выполнена, то распознавание - достаточно простая задача в первом приближении. Использовать или нет нейронные сети - еще вопрос. На мой взгляд, нейронные сети - это модно, но далеко не всегда эффективно. Сложнее всего с таблицами. Тут надо долго и упорно шевелить извилинами.

Пятое. Экспорт во всякие ворды и прочие офисы с сохранением форматирования не есть самое главное желание пользователя. Те пользователи коммерческих систем распознавания текста, которых я знал, после экспорта в ворд очищали форматирование. Для начала надо чтобы пользователь получал блоки, помеченные как картинки и текст.

Этот минимум может быть реализован сообществом опенсорц. Другое дело, что может это никому не надо?

Sancho_s_rancho ()
Ответ на: Re: Cuneiform Linux 0.3 от Sancho_s_rancho

Re: Cuneiform Linux 0.3

> Первое, что раздражает в текущих свободных программах по распознаванию текста - поддержка граф. форматов.

Юсси Пакканен изящно решил эту проблему - нативно cuneiform понимает только BMP, но используя ImageMagick осуществлена поддержка гораздо большего числа форматов.

yaleks ()
Ответ на: Re: Cuneiform Linux 0.3 от yaleks

Re: Cuneiform Linux 0.3

Да, я смотрел исходники.

А почему он изящно привязал Cuneiform к линукс?

Sancho_s_rancho ()
Ответ на: Re: Cuneiform Linux 0.3 от Sancho_s_rancho

Re: Cuneiform Linux 0.3

> А почему он изящно привязал Cuneiform к линукс?

В каком месте он его привязал к linux? Заявлена работа на MacOS X, других систем у него похоже нет, да на них и OCR не сильно нужно.

Он грязно оторвал CF от винды :)

yaleks ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.