LINUX.ORG.RU

YAGF — графическая оболочка для cuneiform


0

2

Оболочка YAGF предоставляет графический интерфейс для консольной программы распознавания текстов cuneiform на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа отсканированных страниц.

28 января 2011 года вышла новейшая версия YAGF - 0.8.5

Главное новшество: можно сохранять базовое изображение и выделенные блоки в графические файлы

Требования для сборки:

  • инструменты разработки Qt4 версии 4.2+;
  • заголовочные файлы libaspell;
  • CMake.

Требования для запуска:

  • Qt 4.2+;
  • aspell.

>>> Подробности

★★☆☆☆

Проверено: post-factum ()
Последнее исправление: post-factum (всего исправлений: 2)

Ответ на: комментарий от valentin_v13

О существовании форматирования понятия не имеет.

но почему же, вон у тя на скриншоте жирный шрифт распознало :)

firsttimeuser ★★★★★
()
Ответ на: комментарий от anonymous

> FR вот постоянно пилят в плане улучшения распознавания, а CF только портируют и всё

в FR наверное full-time разработчики, а CF выкинули в opensouce и сообщество не осиливает ничего кроме портирования?

kamre ★★★
()

Если попытаться закрыть программу с несохранённым текстом, то как положено программа спрашивает, соранить ли? Нажимаем <Сохранить> и выводится диалог на сохранение. Вот в этом месте, если закрыть окно или нажать отмену, то программа не возвращается к предыдущему вопросу, а завершается.
Мне кажется, это очень нехорошо. Мало ли, возникнет необходимость поправить что-то перед сохраннением.

valentin_v13 ★★★
()
Ответ на: комментарий от firsttimeuser

Не так выразился. Он игнорирует абзацы, списки и прочее.

valentin_v13 ★★★
()

Сохранять картинки с переносом форматирования (даже без автоматического анализа блоков) это, как я понял, не умеет?

TheAnonymous ★★★★★
()

Решил распознать текст «Tesseract» (шрифт Ubuntu) с помощью YAGF и Cuneiform-Qt. Это невероятно, YAGF провалил задание, а Cuneiform-Qt - нет. И это притом, что Cuneiform-Qt уже два года не разрабатывается.

Darth_Revan ★★★★★
()
Ответ на: комментарий от Skull

> [#37599] DONE yagf.git=0.8.5-alt1

Оперативно! Установлю таки ALT... пока на ноутбуке.
Кстати, как у ALT'а с поддержкой Canon mp250? RPM от RedHat/SUSE подойдут или компелять придется?

Made_in_China ★★
()

У меня есть комплекс. Люди, имеющие опыт работы с кунииформ, просвятите?

Вот я пользовался раньше только MSO распознавалка 2003. Выбираешь там русский язык и сканируешь. Все англоязычные слова распознАются неправильно, я их ввоху вручную. Обычно в текстах таких слов мало. И мне это очень нравится: не думать о том, что в обычном русскоязычном слове появились нерусскоязычные символы.

MSO распознавалка 2003 распознаёт часто с ошибками - к счастью, там есть ОРФО, поэтому я с него и не ухожу (Wine). Вопрос: оправдан ли мой страх использования FineReader и Cuneiform?

Zenitar
()
Ответ на: комментарий от Made_in_China

Подойдёт src.rpm, в крайнем случае ручное редактирование spec-файла на случай различия в названиях пакетов.

Zenitar
()
Ответ на: комментарий от duott

duott> последний раз, когда пытался поставить, этот cuneiform не мог распознать 90% печатного текста. не катит.

В последний раз, когда я использовал FineReader, это поделие так криво всё распознало, что быстрее и проще оказалось набрать текст вручную.

Quasar ★★★★★
()
Ответ на: комментарий от petrosyan

petrosyan> Движок распознавания, который не дотягивает до fr десятилетней давности + убогий наколенный гуй - это безусловный капец.

Не нравится - пользуйся не менее убогим finereader или помогай в разработке.

P.S.
А ещё есть самообучающаяся OCR Tesseract.

Quasar ★★★★★
()

>Главное новшество: можно сохранять базовое изображение и выделенные блоки в графические файлы

Это киллер-фича. Теперь то точно ОН близок...

LMW
()

Выглядит, мягко говоря, не очень.

stormblastt ★★★
()
Ответ на: комментарий от duott

>последний раз, когда пытался поставить, этот cuneiform не мог распознать 90% печатного текста. не катит. Возможно отсканировано было с низким разрешением. Ниже 300 и пробовать не стоит

Paul_ls
()
Ответ на: комментарий от Quasar

>Не нравится - пользуйся не менее убогим finereader или помогай в разработке.

«Не менее убогим finereader»? Ну это просто смешно. Можно сколько угодно сильно ненавидеть венду, платный закрытый софт, патенты на софт и т.д., но finereader качественный продукт, который хорошо работает. А то, что здесь предлагается в качестве замены finereader _для повседневной работы_ просто ужасно и не выдерживает никакой критики.

neuron
()
Ответ на: комментарий от Quasar

>Сначала просрали они нишу словарей, а теперь - и OCR.

А вот и душевнобольные подтянулись! Сейчас он раскочегарится и до кучи нам расскажет, что и вендекапец уже давно наступил, только никто не заметил.

anonymous
()
Ответ на: комментарий от Quasar

>В последний раз, когда я использовал FineReader

Судя по моему личному опыту - все версии FineReader после 4.0 - лютое УГ.

devl547 ★★★★★
()
Ответ на: комментарий от devl547

Спасибо за наводку, надо будет попробовать. А мне пора завести привычку не только читать пару строк описания, но и на скрины смотреть.

massimus ★★★
()
Ответ на: комментарий от Quasar

>ABBYYКАПЕЦ Сначала просрали они нишу словарей, а теперь - и OCR.

Скорее всего, для них пока линукс количественно не дотягивает до платформы, на которой надо что-то не просрать. Вот если с переводом госучреждений на нацОС дело не заглохнет, могут и зашевелиться. А делать отдельный порт ради гипотетического непросёра однопроцентного рынка коммерсы не пошевелятся. Да даже не однопроцентного. Всё-таки основная ЦА у них не техногики.

massimus ★★★
()
Ответ на: комментарий от massimus

>А он сам себе OCR или фронтенд для чего-то? Истории успеха с русским языком есть?

Он пока вроде не до конца дописан, tesseract понимает, патчи для языковых ключей я вроде тоже где-то видел.

dn2010 ★★★★★
()
Ответ на: комментарий от Quasar

>В последний раз, когда я использовал FineReader, это поделие так криво всё распознало, что быстрее и проще оказалось набрать текст вручную.

Сколько лет уже на ЛОРе произносят эту мантру. Хоть раз бы увидеть пруфы набора страниц так 300 текста быстрее, чем это сделает fr.

petrosyan ★★★★★
()
Ответ на: комментарий от Made_in_China

YAGF не смог сменить язык там, где надо, а Cuneiform-Qt смог. Да они оба GUI к Cuneiform.

Darth_Revan ★★★★★
()
Ответ на: комментарий от massimus

>Скорее всего, для них пока линукс количественно не дотягивает до платформы, на которой надо что-то не просрать. Вот если с переводом госучреждений на нацОС дело не заглохнет, могут и зашевелиться. А делать отдельный порт ради гипотетического непросёра однопроцентного рынка коммерсы не пошевелятся. Да даже не однопроцентного. Всё-таки основная ЦА у них не техногики.

За определенную сумму денег они портируют FR куда угодно, хоть на HaikuOS. Было как минимум 2 истории успеха. Одни дядька заплатил кучу денег и ему сделали эксклюзивный порт для его компании под мандриву, кажется. Точно также появился порт версии «лайт» под мак. Но его по договоренности с заказчиком abbyy теперь продает всем желающим по 2900 деревянных за коробку. Такие дела.

petrosyan ★★★★★
()
Ответ на: комментарий от anonymous

>вендекапец уже давно наступил, только никто не заметил.

локально он уже много, где наступил. У меня вот ни одной венды уже много лет нет.

AVL2 ★★★★★
()

На скриншоте у гуя русский интерфейс, а у собранной программы только английский. Можно выбрать выходной формат html а сохранять только текст. Сбиралось через cmake -DCMAKE_INSTALL_PREFIX=/usr

Napilnik ★★★★★
()

Программа полезная.

Но очень хотелось бы, чтобы кто-нибудь занимался и шлифовкой алгоритмов самой cuneiform. Пока качество распознавания до Сами Знаете Кого не дотягивает :(

hobbit ★★★★★
()
Ответ на: комментарий от AVL2

>локально он уже много, где наступил. У меня вот ни одной венды уже много лет нет.

Оставшиеся 90% горестно стенают, Балмер в панике ломает руки: линуксоид AVL2 снёс венду, всё пропало!

anonymous
()
Ответ на: комментарий от hobbit

Для шлифовки нетривиальных алгоритмов требуется совсем другая квалификация, боюсь те кто способен на это уже работают Сами Знаете Где.

DNA_Seq ★★☆☆☆
() автор топика
Ответ на: комментарий от anonymous

>вендекапец уже давно наступил, только никто не заметил.

ну на самом деле он таки наступил, и его таки не заметили. майкрософт просирает нишу за нишей в таких областях, которые на данный момент являются ключевыми. да-да, я имею в виду эмбедед-устройства, вроде всяких телефонов и планшетов и других не x86-устройств.

Ingwar ★★★★★
()
Ответ на: комментарий от Ttt

> И форматирование на данный момент кто-нибудь из них умеет?

Cuneiform форматирование текста (но не таблиц в свободной версии) умеет.

Skull ★★★★★
()
Ответ на: комментарий от hobbit

>Но очень хотелось бы, чтобы кто-нибудь занимался и шлифовкой алгоритмов самой cuneiform.

Для этого математики нужны, а не программисты на Qt. Много вы знаете математиков в сообществе Open Source, которые разбираются в этой предметной области, и у которых есть время и желание заниматься этим проектом?

neuron
()
Ответ на: комментарий от Ingwar

>ну на самом деле он таки наступил, и его таки не заметили. майкрософт просирает нишу за нишей в таких областях, которые на данный момент являются ключевыми. да-да, я имею в виду эмбедед-устройства, вроде всяких телефонов и планшетов и других не x86-устройств.

Слышу эти речи уже лет 10, а воз и ныне там. Могу ещё вспомнить нетбуки: с каким визгом красноглазые завывали о победе линукса на отдельно взятом нетбуке и как они притихли, когда через годик был восстановлен status quo. Скромнее надо быть и мечтать про себя, а то не сбывается.

anonymous
()
Ответ на: комментарий от anonymous

>Слышу эти речи уже лет 10, а воз и ныне там. Могу ещё вспомнить нетбуки: с каким визгом красноглазые завывали о победе линукса на отдельно взятом нетбуке и как они притихли, когда через годик был восстановлен status quo. Скромнее надо быть и мечтать про себя, а то не сбывается.

при чем тут нетбуки? что за рынок такой, «рынок нетбуков»? что за новая супер-технология?

я вообще не понимаю самого понятия «нетбук». бездисковые ноуты с экраном на >14" существовали со времен динозавров. и то, что компания Аsus внезапно решила всех обмануть и воткнуть дешевое и слабое железо в маленький ноутбук — новой технологией это не пахнет. нет нового рынка, есть расширение старого в сторону лоуэнд. и неудивительно, что как только «обрезки»-атомы сумели хоть сколько-нить быстро выполнять винду и ее приложения — винда туда пришла, это ее экосистема (особенно, если учитывать, что атомы не такие уж и слабые, и действительно не греются).

иная ситуация новыми экосистемами, с не-x86-архитектурами, облачными приложениями и другими инновациями. вот тут МС уже слил по полной. причем если с планшетами ситуация плохая, но поправимая, то с пришедшими на смену UMPC смартфонами ситуация просто швах — седьмая Мобайл оказалась просто мегапровальной, никому не нужной операционкой не смотря на все ее преимуществами. И судя по всему, с планшетами МС таки отхватит такой же эпик фэйл.

ситуация с МС, Эппл и Гуглем на рынке смартфонов и планшетов в точности повторяет ситуацию с IBM, Эпплом и самим МС образца 80-х. Только в роли бимеров теперь выступает сам МС.

Ingwar ★★★★★
()
Ответ на: комментарий от anonymous

Собственно говоря, еще пять-шесть лет назад ПДА или смартфон прежде всего ассоциировался с WinCE, ну и где сейчас Винмобайл?

Ingwar ★★★★★
()
Ответ на: комментарий от Ingwar

>бездисковые ноуты с экраном

безсидишные ессно

Ingwar ★★★★★
()
Ответ на: комментарий от Made_in_China

> Кстати, как у ALT'а с поддержкой Canon mp250? RPM от RedHat/SUSE подойдут или компелять придется?

Может, и подойдут (правда, нужны зависимости на старое г..но мамонта). Другие принтеры Canon после удовлетворения зависимостей для драйверов работали на ALT Linux.

Skull ★★★★★
()
Ответ на: комментарий от Ingwar

>я вообще не понимаю самого понятия «нетбук»

А нетбукам от вашей непонятливости не жарко и не холодно. И линукса на них нет.

иная ситуация новыми экосистемами, с не-x86-архитектурами, облачными приложениями

http://windows8news.com/2011/01/05/windows-8-arm-press-release-microsoft/ http://windows8beta.com/2010/03/windows-8-will-be-a-cloud-based-os

В общем, что тут и говорить: как всегда красноглазые будут рассуждать о том, как МС просрала все рынки, после чего на них придёт винда, возьмёт свои 90+% и красноглазые живо начнут обсуждать, что уж на квантовых компьютерах они точно винду сделают. 10 лет наблюдения за вами не оставляют места для иных прогнозов.

седьмая Мобайл оказалась просто мегапровальной, никому не нужной операционкой не смотря на все ее преимуществами

Онолитеги откауэ! А в МС об этом знают? Расскажите им об этом.

anonymous
()
Ответ на: комментарий от massimus

> Вот если с переводом госучреждений на нацОС дело не заглохнет, могут и зашевелиться.

ABBYY входит в НПП, если что. Собственно, у крупных госзаказчиков, скорее всего, будет пролицензирован нативный движок ABBYY под Linux. Но там не GUI-прилады для студентов, а автоматическое сканирование с разбором по штрих-кодам. Появление потребительской морды маловероятна, хотя и не невозможна.

Skull ★★★★★
()
Ответ на: комментарий от Ingwar

>Собственно говоря, еще пять-шесть лет назад ПДА или смартфон прежде всего ассоциировался с WinCE, ну и где сейчас Винмобайл?

Где сейчас pda, вы хотели нам сказать? Вот как от правильной постановки вопроса смысл меняется. Впрочем, и на рынке pda MS провернула старый трюк с veni, vidi, vici: можете поднапрячься и вспомнить, кто на этом рынке рулил до них. У меня так и соответствующие девайсы дома в тёмном углу валяются, так что я никогда и не забывал.

anonymous
()

Ubuntu 10.04
куни из репов:

$ cuneiform s.jpg
Cuneiform for Linux 0.7.0
*** glibc detected *** cuneiform: double free or corruption (!prev):
0x08367a88 ***
======= Backtrace: =========
/lib/tls/i686/cmov/libc.so.6(+0x6b591)[0x2f0591]
/lib/tls/i686/cmov/libc.so.6(+0x6cde8)[0x2f1de8]
/lib/tls/i686/cmov/libc.so.6(cfree+0x6d)[0x2f4ecd]
/lib/tls/i686/cmov/libc.so.6(fclose+0x14a)[0x2e0aaa]
/usr/lib/cuneiform/librfrmt.so(RFRMT_Formatter+0x209)[0xec8f89]
/usr/lib/cuneiform/libpuma.so(+0xb7df)[0xefc7df]
/usr/lib/cuneiform/libpuma.so(PUMA_XFinalRecognition+0xf3)[0xefde63]
cuneiform[0x804a806]
/lib/tls/i686/cmov/libc.so.6(__libc_start_main+0xe6)[0x29bbd6]
cuneiform[0x8049741]
======= Memory map: ========
00110000-00181000 r-xp 00000000 08:01 15996 /usr/lib/libMagick++.so.2.0.1
00181000-00183000 r--p 00070000 08:01 15996 /usr/lib/libMagick++.so.2.0.1
00183000-00184000 rw-p 00072000 08:01 15996 /usr/lib/libMagick++.so.2.0.1
00184000-0018c000 r-xp 00000000 08:01 95289 /usr/lib/cuneiform/libcline.so
...
...
00667000-00668000 r--p 00017000 08:01 101546 /usr/lib/cuneiform/libleo32.so
00668000-00669000 rw-p 00018000 08:01 101546 /usr/lib/cuneiform/libleo32.so
00669000-0066e000 rw-p 00000000 00:00 0
0066e000-00677000 r-xp 00000000 08:01 100446 /usr/lib/cuneiform/libevn32.soAborted

anonymous
()
Ответ на: комментарий от anonymous

>http://windows8news.com/2011/01/05/windows-8-arm-press-release-microsoft/

http://windows8beta.com/2010/03/windows-8-will-be-a-cloud-based-os


о чем должны мне сказать эти ссыки? о том, что на арме есть винда? так и на марсе вода есть и что с того?


А в МС об этом знают?


знают. за первый день продаж было продано 40 тыс телефонов, по сравнению с 1,7млн за первые 3 дня у айфонов, или с 600 тыс за первый день.

в штатах за месяц за декабрь продано 500тыс телефонов с этой операционкой, это в сравнение с почти 300 тысячами айфонов или 200тыс андроидофонов, продаваемых в США _ежедневно_! причем андроид показывает такой уверенный рост, что нет сомнений — андроидолинукс будет царить на рынке мобильников очень скоро.

ситуация настолько критическая, что баллмера в этом году оштрафовали на 50% премии именно за мобильный сектор, при том, что в принципе год был рекордно прибыльным для МС


10 лет наблюдения за вами не оставляют места для иных прогнозов.


за последние десять лет не смотря на очень дорогостоящие попытки МС:

рынок веб-серверов (за последний год еще и вернулся на уровень 2005года, доля рынка остается примерно одинаковой с 1997года, ситуацию даже не спас дотнет)
мобильную ОС (выше уже писал)
рынок поисковых систем (mcn search-live search-bing, c 1998 года - 12% рынка. пока ситуацию немного спасла покупка yahoo!)
попытку создания мобильной мультимедиа-платформы (Zune, «убийца» iPod продается настолько плохо, что магазины отказываются его продавать)
собственную платформу мобильных телефонов (KIN наверное один из самых эпичнейших провалов за всю историю IT)
рынок облачных офисных приложений (может быть ситуацию спасет facebook, но врядли)
броузерный рынок(потеря рынка с 95% до >50% и есть мегапровал, и доля продолжает падать)

локальным провалом можно назвать Vista и Seven - операционки не смогли конкурировать со своим же «братским» программным продуктом восьмилетней давности. лроме того, висту уже назвали худшим продуктом МС за всю историю компании (это при том, что у МС были такие «удачи» как Millenium)

это то, что я смог вспомнить навскидку, так сказать, самые оглушительные провалы последних десяти лет.

Где сейчас pda, вы хотели нам сказать?


нет, так я как раз не хотел говорить. смартфоны это и есть ПДА, в которые вкрутили GSM и wi-fi модуль. и логичным было бы что именно winmobie заняла бы эту нишу. а что на деле?

Вот как от правильной постановки вопроса смысл меняется.


не меняется.

Впрочем, и на рынке pda MS провернула старый трюк с veni, vidi, vici: можете поднапрячься и вспомнить, кто на этом рынке рулил до них.


маленькая компания Palm? Один, прописью: один представляющий хоть какую-то угрозу вендор. Такому монстру как MS отобрать у Палмы рынок было так же просто, как отобрать у ребенка конфетку. Сейчас МСу на этих рынках противостоят десятки вендоров, причем таких крупных, как Samsung, Sony Ericsson или Apple.

Ingwar ★★★★★
()
Ответ на: комментарий от anonymous

«Если сравнивать на 300 dpi cuneiform 2000 (12 версия) и FR v.5, то качество распознавания текста у них одинаковое.»

Нет. Только на идеальных оригинилах. Сканировали как-то нерасшитую книгу на желтоватой бумаге — при незначительном отклонении листа от перпендикуляра результат скана превращался в кашу, а FR 5 Sprint отлично осилил.

Oleaster ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.