LINUX.ORG.RU

YAGF — графическая оболочка для cuneiform


0

2

Оболочка YAGF предоставляет графический интерфейс для консольной программы распознавания текстов cuneiform на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа отсканированных страниц.

28 января 2011 года вышла новейшая версия YAGF - 0.8.5

Главное новшество: можно сохранять базовое изображение и выделенные блоки в графические файлы

Требования для сборки:

  • инструменты разработки Qt4 версии 4.2+;
  • заголовочные файлы libaspell;
  • CMake.

Требования для запуска:

  • Qt 4.2+;
  • aspell.

>>> Подробности

★★★★☆

Проверено: post-factum ()
Ответ на: комментарий от backbone

Не, наша офис-менеджерка с консолью будет выглядеть слишком экзотично.

abraziv_whiskey ★★★★★ ()

последний раз, когда пытался поставить, этот cuneiform не мог распознать 90% печатного текста. не катит.

duott ★★★★ ()
Ответ на: комментарий от duott

нормально распознает, только разрешение больше нужно выставлять, 300dpi не катит.

bohm ★★★★★ ()
Ответ на: комментарий от backbone

YAGF - графический интерфейс для cuneiform. Хотя может работать и с другими системами распознавания.

Polugnom ★★★★★ ()
Ответ на: комментарий от bohm

finereader распознал те же сканы до последней запятой, даже редактировать было нечего. так что вот.

duott ★★★★ ()
Ответ на: комментарий от ns_ramesses

до файнридера ему далеко, но для бытовых целей уже походит.

ratte ()
Ответ на: комментарий от duott

Ну ты сравнил жопу с пальцем: прогу образца 2000 года и прогу образца 2010 года. :))))))))))))))

Если сравнивать на 300 dpi cuneiform 2000 (12 версия) и FR v.5, то качество распознавания текста у них одинаковое.

anonymous ()

>Qt 4.2+;

Я не тулкитофоб, но…

anonymous ()

это бы скрестить со скантейлором - вот это былобы действительно удобно + чтоб можно было друие движки использовать- например тесеракт - вроде расознаёт уже русский и возможно получше куеиформ

anonymous ()
Ответ на: комментарий от anonymous

какая мне разница, какого они года? факт остаётся фактом, cuneiform близко не является заменой fr.

duott ★★★★ ()
Ответ на: комментарий от deterok

Работает. Не валится. Интерфейс понравился. С cuneiform работает корректно. Что там со сканером — ещё не знаю.
Блоки выделяются и распознаются. О существовании форматирования понятия не имеет.

На этом, в общем-то непосредственно по поводу YAGF всё.

Сканов страниц на данный момент нет, поэтому взял скриншоты всякие. Хорошо распознаёт текст хорошего качества. Лучше всего распознаётся английский крупный текст. Тескт в масштабе «как есть» почти не распознаётся.

http://itmages.ru/image/view/113290/5b9c893d

Завтра вечером, либо в воскресенье раскочегарю сканер.

valentin_v13 ★★★ ()
Ответ на: комментарий от valentin_v13

В принципе, если скан хороший — будет всё нормально.

valentin_v13 ★★★ ()
Ответ на: комментарий от duott

> какая мне разница, какого они года? факт остаётся фактом, cuneiform близко не является заменой fr.

Так пользуйся FR, кто мешает?

overmind88 ★★★★★ ()
Ответ на: комментарий от Kompilainenn

>файнридерокапец?

Движок распознавания, который не дотягивает до fr десятилетней давности + убогий наколенный гуй - это безусловный капец.

petrosyan ★★★★★ ()
Ответ на: комментарий от anonymous

>Я не тулкитофоб, но…

Ну и заканчивай предложение. Почему мы должны додумывать?

Ttt ☆☆☆☆☆ ()

[#37599] DONE yagf.git=0.8.5-alt1

Skull ★★★★★ ()

А кто-нибудь сравнивал cuneiform vs. tesseract? Кто лучше какие языки распознаёт?

И форматирование на данный момент кто-нибудь из них умеет?

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от anonymous

>это бы скрестить со скантейлором
Точно!

>например тесеракт

А кстати, что оно из себя представляет в данный момент? Оно консольное?

valentin_v13 ★★★ ()
Ответ на: комментарий от valentin_v13

>>например тесеракт
>А кстати, что оно из себя представляет в данный момент? Оно консольное?


Да, но вроде были морды.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от Ttt

> А кто-нибудь сравнивал cuneiform vs. tesseract? Кто лучше какие языки распознаёт?

я пробовал, на русском языке, tesseract распознает в 100500 раз лучше :)

wmd ()

Гуй вырвиглазен и совершенно не по HIG'у

Gorthauer ★★★★★ ()

а есть что-нить подобное, только без blatware типа qt?

anonymous ()
Ответ на: комментарий от wmd

Поддерживаю, Пробовал tesseract с кириллическими языками (русский, болгарский, украинский) - лучше, чем cuneiform. Я бы не сказал, что прямо в 100500 раз, возможно, не очень повезло, да и сканы были не очень, но лучше. В tesseract ошибки были в одном слове из пяти-шести, в cuneiform - примерно треть слов с ошибками.

LexArt ★★ ()
Ответ на: комментарий от NoNameNoNumber

Но это же не мешает использовать её с новыми.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от LexArt

Сию минуту попробовал распознать скриншот английского текста — слова оба распознали нормально. Cuneiform чуток облажался со знаками типа нижних подчёркиваний, тире и т.п.

http://itmages.ru/image/view/113329/5fd75738

valentin_v13 ★★★ ()
Ответ на: комментарий от valentin_v13

>Сканов страниц на данный момент нет, поэтому взял скриншоты всякие.

В сканах текст может быть повёрнут на градус, l и 1 очень похожи.

Napilnik ★★★★★ ()

Этож надо было суметь такой поганый вид приложения сделать используя Qt...

/me смотрит на скрин

navrocky ()

Cuneiform не нужен, пусть лучше tesseract пилят.

pevzi ★★★★★ ()
Ответ на: комментарий от Napilnik

Повернул примерно на 3 градуса по часовой стрелке. Начинаются проблемы с ll, B, m, rn, h, но ожидал, что хуже будет, в целом, текст сохранён.

valentin_v13 ★★★ ()
Ответ на: комментарий от duott

насколько помню, там должно быть 300dpi в рисунке. даже если если реальное разрешение меньше.

SuikaFromOuterSpace ()
Ответ на: комментарий от anonymous

Это Qt то bloatware? Вы откуда такие повылазили? Qt отличный мультплатформенный фреймворк, с достаточно небольшим рантаймом и очень большими возможностями.

kodx ()

Если бы в сети всплыли исходники файнридера, ему бы пришел капец через полгодика.

ns_ramesses ()
Ответ на: комментарий от ns_ramesses

У них там ещё много чего в обход законодательства запатентовано. Так что законного файнридерокапца таким способом не добиться.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от ns_ramesses

ну у ABBYY по отношению к файнридеру они есть.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от Ttt

Причём, по слухам, эти запатентованные алгоритмы были придуманы задолго до них. Они лишь их усовершенствовали, а наработки вроде как не открывают.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от valentin_v13

Если у тебя есть возможность поставить дефолтный CuneiForm 2000 v12 от Cognitive Technologies под Вендой, то сравни его качество распознавания с тем, что ты имеешь под Linux. Я сравнивал качество распознавания польских текстов им и FR v5 со скана под 300 dpi и исходный текст был 11 pt. Распознавали практически одинаково (у CF ошибок было больше на 2%, чем у FR). Единственный минус CF - его не затачивали на распознавание индексов и он их не распознаёт.

Кстати, по этим польским текстам всплыла интересная деталь: FR зачастую отмечал неправильно распознанные слова, как правильные. Такой вот занятный нюанс, что намекает на то, что в отличии от CF, FR выдаёт на экран не сырое распознавание, а уже обработанное с учётом словарей, а CF даёт именно сырой результат. Проверка показала, что в данном случае польские слова были в словаре с ошибками, но я ведь FR не в автоматическом режиме запускал!!! Другое дело, что Linux-версия не обладает исходным функционалом сабжа, но это уже не проблема Cognitive Technologies.

anonymous ()

Народ, никто не в курсе, разрабы CuneiForm не собирались после окончания портирования начать подтягивать его движок до современных стандартов? FR вот постоянно пилят в плане улучшения распознавания, а CF только портируют и всё.

anonymous ()
Ответ на: комментарий от Napilnik

При размере 2000 точек в высоту — хорошо читает. Если 1500 уже полный бред.

valentin_v13 ★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.