LINUX.ORG.RU

YAGF — графическая оболочка для cuneiform


0

2

Оболочка YAGF предоставляет графический интерфейс для консольной программы распознавания текстов cuneiform на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа отсканированных страниц.

28 января 2011 года вышла новейшая версия YAGF - 0.8.5

Главное новшество: можно сохранять базовое изображение и выделенные блоки в графические файлы

Требования для сборки:

  • инструменты разработки Qt4 версии 4.2+;
  • заголовочные файлы libaspell;
  • CMake.

Требования для запуска:

  • Qt 4.2+;
  • aspell.

>>> Подробности

★★☆☆☆

Проверено: post-factum ()
Последнее исправление: post-factum (всего исправлений: 2)

Ответ на: комментарий от backbone

Не, наша офис-менеджерка с консолью будет выглядеть слишком экзотично.

abraziv_whiskey ★★★★★
()

последний раз, когда пытался поставить, этот cuneiform не мог распознать 90% печатного текста. не катит.

duott ★★★★★
()
Ответ на: комментарий от backbone

YAGF - графический интерфейс для cuneiform. Хотя может работать и с другими системами распознавания.

Polugnom ★★★★★
()
Ответ на: комментарий от ns_ramesses

до файнридера ему далеко, но для бытовых целей уже походит.

ratte
()
Ответ на: комментарий от duott

Ну ты сравнил жопу с пальцем: прогу образца 2000 года и прогу образца 2010 года. :))))))))))))))

Если сравнивать на 300 dpi cuneiform 2000 (12 версия) и FR v.5, то качество распознавания текста у них одинаковое.

anonymous
()

это бы скрестить со скантейлором - вот это былобы действительно удобно + чтоб можно было друие движки использовать- например тесеракт - вроде расознаёт уже русский и возможно получше куеиформ

anonymous
()
Ответ на: комментарий от deterok

Работает. Не валится. Интерфейс понравился. С cuneiform работает корректно. Что там со сканером — ещё не знаю.
Блоки выделяются и распознаются. О существовании форматирования понятия не имеет.

На этом, в общем-то непосредственно по поводу YAGF всё.

Сканов страниц на данный момент нет, поэтому взял скриншоты всякие. Хорошо распознаёт текст хорошего качества. Лучше всего распознаётся английский крупный текст. Тескт в масштабе «как есть» почти не распознаётся.

http://itmages.ru/image/view/113290/5b9c893d

Завтра вечером, либо в воскресенье раскочегарю сканер.

valentin_v13 ★★★
()
Ответ на: комментарий от duott

> какая мне разница, какого они года? факт остаётся фактом, cuneiform близко не является заменой fr.

Так пользуйся FR, кто мешает?

overmind88 ★★★★★
()
Ответ на: комментарий от Kompilainenn

>файнридерокапец?

Движок распознавания, который не дотягивает до fr десятилетней давности + убогий наколенный гуй - это безусловный капец.

petrosyan ★★★★★
()

А кто-нибудь сравнивал cuneiform vs. tesseract? Кто лучше какие языки распознаёт?

И форматирование на данный момент кто-нибудь из них умеет?

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от anonymous

>это бы скрестить со скантейлором
Точно!

например тесеракт

А кстати, что оно из себя представляет в данный момент? Оно консольное?

valentin_v13 ★★★
()
Ответ на: комментарий от valentin_v13

>>например тесеракт

А кстати, что оно из себя представляет в данный момент? Оно консольное?


Да, но вроде были морды.

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от Ttt

А кто-нибудь сравнивал cuneiform vs. tesseract? Кто лучше какие языки распознаёт?

я пробовал, на русском языке, tesseract распознает в 100500 раз лучше :)

wmd
()

Гуй вырвиглазен и совершенно не по HIG'у

Gorthauer ★★★★★
()
Ответ на: комментарий от wmd

Поддерживаю, Пробовал tesseract с кириллическими языками (русский, болгарский, украинский) - лучше, чем cuneiform. Я бы не сказал, что прямо в 100500 раз, возможно, не очень повезло, да и сканы были не очень, но лучше. В tesseract ошибки были в одном слове из пяти-шести, в cuneiform - примерно треть слов с ошибками.

LexArt ★★
()
Ответ на: комментарий от NoNameNoNumber

Но это же не мешает использовать её с новыми.

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от LexArt

Сию минуту попробовал распознать скриншот английского текста — слова оба распознали нормально. Cuneiform чуток облажался со знаками типа нижних подчёркиваний, тире и т.п.

http://itmages.ru/image/view/113329/5fd75738

valentin_v13 ★★★
()
Ответ на: комментарий от valentin_v13

>Сканов страниц на данный момент нет, поэтому взял скриншоты всякие.

В сканах текст может быть повёрнут на градус, l и 1 очень похожи.

Napilnik ★★★★★
()

Этож надо было суметь такой поганый вид приложения сделать используя Qt...

/me смотрит на скрин

navrocky ★★
()

Cuneiform не нужен, пусть лучше tesseract пилят.

pevzi ★★★★★
()
Ответ на: комментарий от Napilnik

Повернул примерно на 3 градуса по часовой стрелке. Начинаются проблемы с ll, B, m, rn, h, но ожидал, что хуже будет, в целом, текст сохранён.

valentin_v13 ★★★
()
Ответ на: комментарий от duott

насколько помню, там должно быть 300dpi в рисунке. даже если если реальное разрешение меньше.

SuikaFromOuterSpace
()
Ответ на: комментарий от anonymous

Это Qt то bloatware? Вы откуда такие повылазили? Qt отличный мультплатформенный фреймворк, с достаточно небольшим рантаймом и очень большими возможностями.

kodx
()
Ответ на: комментарий от ns_ramesses

У них там ещё много чего в обход законодательства запатентовано. Так что законного файнридерокапца таким способом не добиться.

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от Ttt

Причём, по слухам, эти запатентованные алгоритмы были придуманы задолго до них. Они лишь их усовершенствовали, а наработки вроде как не открывают.

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от valentin_v13

Если у тебя есть возможность поставить дефолтный CuneiForm 2000 v12 от Cognitive Technologies под Вендой, то сравни его качество распознавания с тем, что ты имеешь под Linux. Я сравнивал качество распознавания польских текстов им и FR v5 со скана под 300 dpi и исходный текст был 11 pt. Распознавали практически одинаково (у CF ошибок было больше на 2%, чем у FR). Единственный минус CF - его не затачивали на распознавание индексов и он их не распознаёт.

Кстати, по этим польским текстам всплыла интересная деталь: FR зачастую отмечал неправильно распознанные слова, как правильные. Такой вот занятный нюанс, что намекает на то, что в отличии от CF, FR выдаёт на экран не сырое распознавание, а уже обработанное с учётом словарей, а CF даёт именно сырой результат. Проверка показала, что в данном случае польские слова были в словаре с ошибками, но я ведь FR не в автоматическом режиме запускал!!! Другое дело, что Linux-версия не обладает исходным функционалом сабжа, но это уже не проблема Cognitive Technologies.

anonymous
()

Народ, никто не в курсе, разрабы CuneiForm не собирались после окончания портирования начать подтягивать его движок до современных стандартов? FR вот постоянно пилят в плане улучшения распознавания, а CF только портируют и всё.

anonymous
()
Ответ на: комментарий от Napilnik

При размере 2000 точек в высоту — хорошо читает. Если 1500 уже полный бред.

valentin_v13 ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.