YAGF — графическая оболочка для cuneiform

0

2

Оболочка YAGF предоставляет графический интерфейс для консольной программы распознавания текстов cuneiform на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа отсканированных страниц.

28 января 2011 года вышла новейшая версия YAGF - 0.8.5

Главное новшество: можно сохранять базовое изображение и выделенные блоки в графические файлы

Требования для сборки:

инструменты разработки Qt4 версии 4.2+;
заголовочные файлы libaspell;
CMake.

Требования для запуска:

Qt 4.2+;
aspell.

>>> Подробности

Ссылка

←	Представлена новая реализация ZFS для Linux

Атака на sourceforge.net

→

← 1 2 3 →

cuneiform хватает пока =)

backbone ★★★★★
(28.01.11 18:59:26 MSK)

Ответ на: комментарий от backbone 28.01.11 18:59:26 MSK

Не, наша офис-менеджерка с консолью будет выглядеть слишком экзотично.

abraziv_whiskey ★★★★★
(28.01.11 20:23:06 MSK)

Ссылка

О, отлично. Щас пойду собирать.

valentin_v13 ★★★
(28.01.11 21:03:47 MSK)

последний раз, когда пытался поставить, этот cuneiform не мог распознать 90% печатного текста. не катит.

duott ★★★★★
(28.01.11 21:12:41 MSK)

Ответ на: комментарий от valentin_v13 28.01.11 21:03:47 MSK

отпишись как будет работать ?

deterok ★★★★★
(28.01.11 21:12:47 MSK)

Ответ на: комментарий от duott 28.01.11 21:12:41 MSK

нормально распознает, только разрешение больше нужно выставлять, 300dpi не катит.

bohm ★★★★★
(28.01.11 21:17:50 MSK)

Ответ на: комментарий от backbone 28.01.11 18:59:26 MSK

YAGF - графический интерфейс для cuneiform. Хотя может работать и с другими системами распознавания.

Polugnom ★★★★★
(28.01.11 21:21:12 MSK)

Ссылка

файнридерокапец?

Kompilainenn ★★★★★
(28.01.11 21:27:36 MSK)

Убивец файнридера?

ns_ramesses ★
(28.01.11 21:28:42 MSK)

Ответ на: комментарий от bohm 28.01.11 21:17:50 MSK

finereader распознал те же сканы до последней запятой, даже редактировать было нечего. так что вот.

duott ★★★★★
(28.01.11 21:36:44 MSK)

Ответ на: комментарий от ns_ramesses 28.01.11 21:28:42 MSK

О да, FR помер со смеху =)

af5 ★★★★★
(28.01.11 21:44:08 MSK)

Ссылка

Ответ на: комментарий от ns_ramesses 28.01.11 21:28:42 MSK

до файнридера ему далеко, но для бытовых целей уже походит.

~~ratte~~ ★
(28.01.11 21:45:52 MSK)

Ссылка

Ответ на: комментарий от duott 28.01.11 21:36:44 MSK

Ну ты сравнил жопу с пальцем: прогу образца 2000 года и прогу образца 2010 года. :))))))))))))))

Если сравнивать на 300 dpi cuneiform 2000 (12 версия) и FR v.5, то качество распознавания текста у них одинаковое.

anonymous
(28.01.11 21:47:54 MSK)

>Qt 4.2+;

Я не тулкитофоб, но…

anonymous
(28.01.11 21:51:44 MSK)

это бы скрестить со скантейлором - вот это былобы действительно удобно + чтоб можно было друие движки использовать- например тесеракт - вроде расознаёт уже русский и возможно получше куеиформ

anonymous
(28.01.11 21:52:13 MSK)

Ответ на: комментарий от anonymous 28.01.11 21:47:54 MSK

какая мне разница, какого они года? факт остаётся фактом, cuneiform близко не является заменой fr.

duott ★★★★★
(28.01.11 21:52:25 MSK)

Ответ на: комментарий от deterok 28.01.11 21:12:47 MSK

Работает. Не валится. Интерфейс понравился. С cuneiform работает корректно. Что там со сканером — ещё не знаю.
Блоки выделяются и распознаются. О существовании форматирования понятия не имеет.

На этом, в общем-то непосредственно по поводу YAGF всё.

Сканов страниц на данный момент нет, поэтому взял скриншоты всякие. Хорошо распознаёт текст хорошего качества. Лучше всего распознаётся английский крупный текст. Тескт в масштабе «как есть» почти не распознаётся.

http://itmages.ru/image/view/113290/5b9c893d

Завтра вечером, либо в воскресенье раскочегарю сканер.

valentin_v13 ★★★
(28.01.11 21:57:15 MSK)

Ответ на: комментарий от valentin_v13 28.01.11 21:57:15 MSK

В принципе, если скан хороший — будет всё нормально.

valentin_v13 ★★★
(28.01.11 21:58:54 MSK)

Ответ на: комментарий от valentin_v13 28.01.11 21:58:54 MSK

Русский текст со скриншота:
http://itmages.ru/image/view/113297/2bbe99b7

valentin_v13 ★★★
(28.01.11 22:02:42 MSK)

Ссылка

Ответ на: комментарий от duott 28.01.11 21:52:25 MSK

> какая мне разница, какого они года? факт остаётся фактом, cuneiform близко не является заменой fr.

Так пользуйся FR, кто мешает?

overmind88 ★★★★★
(28.01.11 22:04:13 MSK)

Ссылка

Ответ на: комментарий от Kompilainenn 28.01.11 21:27:36 MSK

>файнридерокапец?

Движок распознавания, который не дотягивает до fr десятилетней давности + убогий наколенный гуй - это безусловный капец.

petrosyan ★★★★★
(28.01.11 22:04:32 MSK)

Ответ на: комментарий от anonymous 28.01.11 21:51:44 MSK

>Я не тулкитофоб, но…

Ну и заканчивай предложение. Почему мы должны додумывать?

~~Ttt~~ ☆☆☆☆☆
(28.01.11 22:04:44 MSK)

[#37599] DONE yagf.git=0.8.5-alt1

Skull ★★★★★
(28.01.11 22:06:11 MSK)

А кто-нибудь сравнивал cuneiform vs. tesseract? Кто лучше какие языки распознаёт?

И форматирование на данный момент кто-нибудь из них умеет?

~~Ttt~~ ☆☆☆☆☆
(28.01.11 22:09:19 MSK)

Ответ на: комментарий от anonymous 28.01.11 21:52:13 MSK

>это бы скрестить со скантейлором
Точно!

например тесеракт

А кстати, что оно из себя представляет в данный момент? Оно консольное?

valentin_v13 ★★★
(28.01.11 22:11:02 MSK)

Ответ на: комментарий от valentin_v13 28.01.11 22:11:02 MSK

>>например тесеракт

А кстати, что оно из себя представляет в данный момент? Оно консольное?

Да, но вроде были морды.

~~Ttt~~ ☆☆☆☆☆
(28.01.11 22:13:16 MSK)

Ссылка

Ответ на: комментарий от Ttt 28.01.11 22:09:19 MSK

А кто-нибудь сравнивал cuneiform vs. tesseract? Кто лучше какие языки распознаёт?

я пробовал, на русском языке, tesseract распознает в 100500 раз лучше :)

wmd
(28.01.11 22:16:06 MSK)

Гуй вырвиглазен и совершенно не по HIG'у

Gorthauer ★★★★★
(28.01.11 22:25:14 MSK)

Ссылка

а есть что-нить подобное, только без blatware типа qt?

anonymous
(28.01.11 22:25:29 MSK)

Ответ на: комментарий от petrosyan 28.01.11 22:04:32 MSK

ты не смешнее оригинала

Kompilainenn ★★★★★
(28.01.11 22:26:15 MSK)

Ссылка

Ответ на: комментарий от wmd 28.01.11 22:16:06 MSK

Поддерживаю, Пробовал tesseract с кириллическими языками (русский, болгарский, украинский) - лучше, чем cuneiform. Я бы не сказал, что прямо в 100500 раз, возможно, не очень повезло, да и сканы были не очень, но лучше. В tesseract ошибки были в одном слове из пяти-шести, в cuneiform - примерно треть слов с ошибками.

~~LexArt~~ ★★
(28.01.11 22:40:41 MSK)

Ответ на: комментарий от Ttt 28.01.11 22:04:44 MSK

Там просто версия подозрительно старая.

NoNameNoNumber ★
(28.01.11 22:42:32 MSK)

Ответ на: комментарий от NoNameNoNumber 28.01.11 22:42:32 MSK

Но это же не мешает использовать её с новыми.

~~Ttt~~ ☆☆☆☆☆
(28.01.11 22:54:32 MSK)

Ссылка

Ответ на: комментарий от LexArt 28.01.11 22:40:41 MSK

Сию минуту попробовал распознать скриншот английского текста — слова оба распознали нормально. Cuneiform чуток облажался со знаками типа нижних подчёркиваний, тире и т.п.

http://itmages.ru/image/view/113329/5fd75738

valentin_v13 ★★★
(28.01.11 22:57:58 MSK)

Ссылка

Ответ на: комментарий от valentin_v13 28.01.11 21:57:15 MSK

>Сканов страниц на данный момент нет, поэтому взял скриншоты всякие.

В сканах текст может быть повёрнут на градус, l и 1 очень похожи.

~~Napilnik~~ ★★★★★
(28.01.11 22:58:48 MSK)

Ответ на: комментарий от wmd 28.01.11 22:16:06 MSK

и тем не менее, только в txt(версия 3.0) и кривовато.

Oyster
(28.01.11 23:06:57 MSK)

Ссылка

Этож надо было суметь такой поганый вид приложения сделать используя Qt...

/me смотрит на скрин

navrocky ★★
(28.01.11 23:19:54 MSK)

Cuneiform не нужен, пусть лучше tesseract пилят.

pevzi ★★★★★
(28.01.11 23:25:33 MSK)

Ссылка

Ответ на: комментарий от Napilnik 28.01.11 22:58:48 MSK

Повернул примерно на 3 градуса по часовой стрелке. Начинаются проблемы с ll, B, m, rn, h, но ожидал, что хуже будет, в целом, текст сохранён.

valentin_v13 ★★★
(28.01.11 23:31:41 MSK)

Ответ на: комментарий от duott 28.01.11 21:12:41 MSK

насколько помню, там должно быть 300dpi в рисунке. даже если если реальное разрешение меньше.

SuikaFromOuterSpace
(28.01.11 23:44:12 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.01.11 22:25:29 MSK

Это Qt то bloatware? Вы откуда такие повылазили? Qt отличный мультплатформенный фреймворк, с достаточно небольшим рантаймом и очень большими возможностями.

kodx ★
(28.01.11 23:48:35 MSK)

Ссылка

Если бы в сети всплыли исходники файнридера, ему бы пришел капец через полгодика.

ns_ramesses ★
(28.01.11 23:50:16 MSK)

Ответ на: комментарий от ns_ramesses 28.01.11 23:50:16 MSK

У них там ещё много чего в обход законодательства запатентовано. Так что законного файнридерокапца таким способом не добиться.

~~Ttt~~ ☆☆☆☆☆
(28.01.11 23:59:47 MSK)

Ответ на: комментарий от valentin_v13 28.01.11 23:31:41 MSK

http://narod.ru/disk/4539148001/out0010.png.html Скан, если надо, 67 метров, png, 1200 dpi.

~~Napilnik~~ ★★★★★
(29.01.11 00:07:26 MSK)

Ответ на: комментарий от Ttt 28.01.11 23:59:47 MSK

В рашке есть разве софтверные патенты?

ns_ramesses ★
(29.01.11 00:40:41 MSK)

Ответ на: комментарий от ns_ramesses 29.01.11 00:40:41 MSK

ну у ABBYY по отношению к файнридеру они есть.

~~Ttt~~ ☆☆☆☆☆
(29.01.11 00:59:09 MSK)

Ответ на: комментарий от Ttt 29.01.11 00:59:09 MSK

Причём, по слухам, эти запатентованные алгоритмы были придуманы задолго до них. Они лишь их усовершенствовали, а наработки вроде как не открывают.

~~Ttt~~ ☆☆☆☆☆
(29.01.11 01:00:13 MSK)

Ссылка

Ответ на: комментарий от valentin_v13 28.01.11 21:57:15 MSK

Если у тебя есть возможность поставить дефолтный CuneiForm 2000 v12 от Cognitive Technologies под Вендой, то сравни его качество распознавания с тем, что ты имеешь под Linux. Я сравнивал качество распознавания польских текстов им и FR v5 со скана под 300 dpi и исходный текст был 11 pt. Распознавали практически одинаково (у CF ошибок было больше на 2%, чем у FR). Единственный минус CF - его не затачивали на распознавание индексов и он их не распознаёт.

Кстати, по этим польским текстам всплыла интересная деталь: FR зачастую отмечал неправильно распознанные слова, как правильные. Такой вот занятный нюанс, что намекает на то, что в отличии от CF, FR выдаёт на экран не сырое распознавание, а уже обработанное с учётом словарей, а CF даёт именно сырой результат. Проверка показала, что в данном случае польские слова были в словаре с ошибками, но я ведь FR не в автоматическом режиме запускал!!! Другое дело, что Linux-версия не обладает исходным функционалом сабжа, но это уже не проблема Cognitive Technologies.

anonymous
(29.01.11 01:12:08 MSK)

Ссылка

Народ, никто не в курсе, разрабы CuneiForm не собирались после окончания портирования начать подтягивать его движок до современных стандартов? FR вот постоянно пилят в плане улучшения распознавания, а CF только портируют и всё.

anonymous
(29.01.11 01:46:24 MSK)