LINUX.ORG.RU

Cuneiform-Qt — графический интерфейс к Cuneiform

 ,


0

0

Вышла версия 0.1.1 программы Cuneiform-Qt — графического интерфейса к программе распознавания текстов Cuneiform — лучшей на сегодня из свободных программ OCR под Линукс.

Интерфейс использует библиотеку Qt4. Пока программа работает только с файлами изображений и не умеет взаимодействовать с SANE.

Автор — Андрей Черепанов, участник команды Alt Linux.

Сообщение в блоге автора

Исходный текст

>>> Страница программы

★★★★★

Проверено: Dimez ()

кастуем в тред скулла для объяснений причин произошедшего.

Tu3eK
()

Ждем в репах дебиана, ну или хотя бы deb'ы.

ptah_alexs ★★★★★
()

Удивился, почему не на глагне. Скопирую сюда:

Пошел по ссылке, посмотрел на скриншот. Я правильно понимаю, что это тупая оболочка над командной строкой, которая по сути ничего полезного не делает, предназначенная для любителей потыкать кнопки "открыть файл" вместо набивания его имени?

В этом творении есть словари, очистка изображения от мусора, развороты изображений, ручная разметка будущего документа? Или там хоть часть картинки затерть, уровни поправить, если сканер сдох и выводит что-то слабочитаемое? Кстати, где кнопка "сканировать"? Ну хоть таблицы поддерживаются? Судя по скриншоту - скорее всего нет.

ЗЫ: я сам порывался писать оболочку, но, когда я заглянул в форум разработчиков куниформа... какбэ это сказать... ну в общем стошнило меня, ибо этот "куниформ" - черный ящик, который "просто работает", причем похоже сами авторы не знают как. Новых языков для движка не сделать, многое вшито прямо в код, отсутствие авторов (поди рады, что их творением теперь хоть кто-то занимается), отсутствие документации - как такое развивать? Уж лучше гугля подождать, когда они свое творение допилят. Русский оно уже умеет, как только научится строки корректно разделять - будет сказка. Любители повозиться могут уже сейчас написать костыль и отправить гуглю.

ЗЗЫ: что внутри, для Ъ:

Процесс
Идёт процесс распознавания.
Подождите...
Все файлы (*)
Открыть изображение
Документы HTML (*.htm *.html)
Сохранение результата
Файл существует
Файл с именем «%1» уже существует.
Заменить этот файл?
Загрузка изображения «%1»...
Ошибка открытия файла
Невозможно открыть файл «%1».
Загружено изображение «%1».
Ошибка распознавания
Невозможно запустить программу распознавания Cuneiform. Проверьте установку программы.
Ошибка Cuneiform:
%1
Ошибка распознавания
Распознавание текста закончено.
Процесс распознавания прерван пользователем.
Cuneiform OCR
Исходное изображение
Исходное изображение
Распознанный текст
Распознанный текст
Файл
Справка
Настройка
toolBar
Открыть изображение...
Сохранить результат...
Выход
Распознать текст
Настроить программу...
Изображения (*.png *.jpg *.jpeg *.bmp *.tif *.tiff)
Запись файла...
Документы RTF (*.rtf)
Текстовые файлы (*.txt)
Ошибка открытия
Невозможно открыть файл «%1» на запись. Проверьте права доступа.
Ошибка сохранения
Невозможно сохранить файл «%1».
Файл «%1» сохранён.
Идёт процесс распознавания...
Изображение не загружено
Изображение не загружено. Загрузите сканированное изображение.
%1 %2. Графический интерфейс для системы оптического распознавания символов Cuneiform.
Использование: %1 [параметр] [изображение]
Доступные параметры:
-h Справка по использованию программы
--version Сведения о версии программы
изображение Файл изображения, формат которого поддерживается в ImageMagic
%1 %2
Английский
Немецкий
Французский
Русский
Шведский
Испанский
Итальянский
Русский и английский
Украинский
Сербский
Хорватский
Польский
Датский
Португальский
Голландский
Чешский
Румынский
Венгерский
Болгарский
Словенский
Латвийский
Литовский
Эстонский
Турецкий
HTML
hOCR HTML
RTF
Обычный текст с абзацами TeX
Обычный текст
Параметры
Общие параметры
Язык:
Формат:
Расположение Cuneiform
Программа:

Что тут? Работа с файлами (поздравляю, собственный велофреймворк) и опции приложения (наверняка не все)

EmStudio
()
Ответ на: комментарий от wWolf

> А кириличу оно хоть как то разумеет ?

Вроде, да.

question4 ★★★★★
() автор топика
Ответ на: комментарий от SplindeR

> Внезапно, что вы хотите от ранней пре-альфа версии?

А это даже не преальфу не тянет. Посмотри на нее - это прямо таки hello world по открыванию картинок и работе с файлами. И главное - где обещания светлого будущего, т.е. тех самых словарей, чистилок и прочего? Я уверен, что это творение сделано под всем известный НП18, причем по принципу "только бы отвязаться".

EmStudio
()
Ответ на: комментарий от EmStudio

> Я правильно понимаю, что это тупая оболочка над командной строкой

Пока да.

> В этом творении есть словари,

Когда появится редактирование (в ближайших планах), наверное бутет спеллчекер Qt.

> очистка изображения от мусора, развороты изображений, ручная разметка будущего документа? Или там хоть часть картинки затерть, уровни поправить, если сканер сдох и выводит что-то слабочитаемое? Кстати, где кнопка "сканировать"?

Напиши автору.

> Ну хоть таблицы поддерживаются?

А поддерживает ли их Cuneiform? Не уверен.

> Новых языков для движка не сделать,

Почему?

> многое вшито прямо в код

Gocr и Tesseract страдают от того же :( Хоть это и пытаются исправить.

> Уж лучше гугля подождать, когда они свое творение допилят.

Пока что у Cuneiform качество выше.

> Русский оно уже умеет

Прекратило путать русские буквы с цифрами?

question4 ★★★★★
() автор топика
Ответ на: комментарий от Hellor

> А почему они сразу не сделали оболочку для Linux? Для Windows же сделано?

Слишком завязано на библиотеки от MS конца 1990-х. Большая часть работы над Cuneiform состояла пока в отвязывании от этих библиотек :)

question4 ★★★★★
() автор топика
Ответ на: комментарий от SplindeR

>Внезапно, что вы хотите от ранней пре-альфа версии?

Таки внезапно. Анонс планируемых функций\работ не помешал бы. Сейчас это просто мордочка. И не сказать, что полезная. Автору все равно спасибо, хоть какая, но морда тут нужна: учителя с консолью работать не станут.

malices_gossips ★★★
()

Это вобще что за ужас? Файнридер самых первых версий имел возможностей в десятки раз больше.

Orlangoor ★★★★★
()
Ответ на: комментарий от question4

Пока да.

Не нужно. ЗАКОПАТ

> Когда появится редактирование (в ближайших планах), наверное бутет спеллчекер Qt.

Пруфлинк

> Напиши автору.

Автор должен меня и так читать.

> А поддерживает ли их Cuneiform? Не уверен.

Конечно нет. Но это и не обязанность распознавалки текста, тут нужно распознавание форматирования. Или брать пример с файнридера: свою распознавалку они тоже ниасилили (сделали, но криво), зато в нем есть ручная разметка для таблиц. Разлинуешь руками и все отлично распознает. Аналогично и со сложным форматированием абзацев - ручная разлиновка. Можно грабить ко^W^Wзатирать картинки, дабы мусор не распознавал.

> Почему?

Почитай ихний форум. У меня там вообще волосы дыбом вставали.

> Пока что у Cuneiform качество выше.

Не скажу

> Прекратило путать русские буквы с цифрами?

Если добавить препроцессор в виде разделения строк - не будет. И это скорее всего вопрос времени.

EmStudio
()
Ответ на: комментарий от thresh

>Так пришли патч, если тебе это надо.

У меня была лицензия на файнридер, когда требовалось сканировать и распознавать. И на винду тоже. За столь хороший инструмент не жалко денег. Сейчас же для меня это бесполезный софт

Orlangoor ★★★★★
()

Граф. морда это конечно хорошо ... Вот только вопрос. А собственно Cuneiform нэйтивно под Линуксом работает хотя бы в командной строке? Или до сих пор нужно проявлять чудеса героизма при его сборке?

zloy_starper ★★★
()
Ответ на: комментарий от EmStudio

> Пруфлинк

Ссылка на блог вверху.

> Автор должен меня и так читать.

А рожа не треснет? :) Вас много, он один.

>> А поддерживает ли их Cuneiform?

> Конечно нет.

Поискал. Есть, но вне ядра, на линукс ещё не перенесли.

> Но это и не обязанность распознавалки текста, тут нужно распознавание форматирования.

О! Допили Ocropus. Хоть для этого, хоть для твоего любимого тессеракта. Весь мирт тебе спасибо скажет.

> Или брать пример с файнридера: свою распознавалку они тоже ниасилили (сделали, но криво),

Мне хватает.

> зато в нем есть ручная разметка для таблиц. Разлинуешь руками и все отлично распознает. Аналогично и со сложным форматированием абзацев - ручная разлиновка. Можно грабить ко^W^Wзатирать картинки, дабы мусор не распознавал.

Стоит в TODO.

>> Пока что у Cuneiform качество выше.

> Не скажу

Проверь. Распознай одну картинку на английском в ~200 DPI несколькими программами. У меня качество было ocrad < gocr < tesseract < ReadIris < cuneiform-linux < FineReader.

>> Прекратило путать русские буквы с цифрами?

> Если добавить препроцессор в виде разделения строк - не будет. И это скорее всего вопрос времени.

То есть не прекратило :)

question4 ★★★★★
() автор топика
Ответ на: комментарий от zloy_starper

> А собственно Cuneiform нэйтивно под Линуксом работает хотя бы в командной строке?

Да. Только в командной строке. И без кучи вспомогательных библиотек, одно ядро.

question4 ★★★★★
() автор топика

Это всё фигня по сравнению с „astral_test | espeak --stdin”.

ChALkeR ★★★★★
()
Ответ на: комментарий от wWolf

> А кириличу оно хоть как то разумеет ?

Да. И не только русский язык.

Skull ★★★★★
()
Ответ на: комментарий от madcore

> А в чем загвоздка?

Руки не дошли. Всего пару дней работал над проектом. Никто не мешает прикрутить в параметрах XSANE как команду запуска OCR.

Skull ★★★★★
()
Ответ на: комментарий от Hellor

> А кстати. А почему они сразу не сделали оболочку для Linux? Для Windows же сделано?

Скорее всего, не было нормальных программистов на портирование GUI. Да и под Windows движок больше умеет, чем под Linux. Например, таблицы поддерживает.

Skull ★★★★★
()
Ответ на: комментарий от EmStudio

> Пошел по ссылке, посмотрел на скриншот. Я правильно понимаю, что это тупая оболочка над командной строкой, которая по сути ничего полезного не делает, предназначенная для любителей потыкать кнопки "открыть файл" вместо набивания его имени?

Да, он правильно понял. При этом показывается исходное изображение и нормально показывается HTML при выборе его в качестве формата.

Skull ★★★★★
()
Ответ на: комментарий от EmStudio

> А это даже не преальфу не тянет.

Сделайте своё и покажите. Я это не пиарил на LOR.

> И главное - где обещания светлого будущего, т.е. тех самых словарей, чистилок и прочего?

Словари идут с Cuneiform, чистилки нужны тем, кто не умеет нормально сканировать. Подавляющему большинству нужно отсканировать на нормальном сканере и распознать. И всё это без командной строки. Эстеты могут сесть и написать самостоятельно.

> Я уверен, что это творение сделано под всем известный НП18, причем по принципу "только бы отвязаться".

Нет, Вы ошибаетесь. Просто попросили, вот я и помог. НП-18 уже давно сдали заказчику.

Skull ★★★★★
()
Ответ на: комментарий от malices_gossips

> Анонс планируемых функций\работ не помешал бы

Смотрите в TODO в коде и на русском http://www.altlinux.org/Cuneiform-Qt#TODO

> Сейчас это просто мордочка. И не сказать, что полезная.

А чем она не полезная?

Skull ★★★★★
()
Ответ на: комментарий от Orlangoor

> Это вобще что за ужас? Файнридер самых первых версий имел возможностей в десятки раз больше.

Сколько он разрабатывался до этого?

Skull ★★★★★
()
Ответ на: комментарий от IBM-ch

> Паровоз ^W велосипед Черепанова? :)

;)

Skull ★★★★★
()
Ответ на: комментарий от GotDotNetMono

> Чем оно лучше Finereader 6 Pro, который распространяется бесплатно?

Где можно скачать нативную сборку под Linux? Что, нету?

Skull ★★★★★
()
Ответ на: комментарий от maister

> Для 3-его курса университета довольно неплохо. Так держать, студент Черепанов!

Вообще-то я Вам в папаши гожусь. Это результат двух дней программирования без отрыва от основной работы.

Skull ★★★★★
()
Ответ на: комментарий от GotDotNetMono

>Чем оно лучше Finereader 6 Pro, который распространяется бесплатно?

Кем и где распространяется? Зашел на Аббии - под кнопкой скачать ничего такого не распространяется.

Ingwar ★★★★★
()
Ответ на: комментарий от Skull

> Где можно скачать нативную сборку под Linux? Что, нету?

Это из области религии? Кто-то пишет на Qt, что-то под GTK, кому-то милее WinAPI, для Ъ есть свои велосипеды. Мне, как пользователю, какая разница? Или вы решили потешить свое ЧСВ?

EmStudio
()
Ответ на: комментарий от Skull

Кто же спорит, что вы мега круты, в узком кругу. Теперь мы наконец-то смогли заценить дело рук ваших. А насчет папаши ты загнул, сынок. Я программировал на FORTRAN когда ты пешком под стол ходил. Ну да ладно, резвись дальше. С возрастом твоя спесь пройдет.

maister
()
Ответ на: комментарий от EmStudio

> Или вы решили потешить свое ЧСВ?

А зачем мне напрягаться с WINE? Если хоть на xlib (гы, вспомнил Hansa Financial) или на GTK+ — меня не напрягает.

Skull ★★★★★
()
Ответ на: комментарий от maister

> Кто же спорит, что вы мега круты, в узком кругу.

Я уже 8 лет не выпячиваю свои вклад в проектах OpenSource.

> Я программировал на FORTRAN когда ты пешком под стол ходил. Ну да ладно, резвись дальше. С возрастом твоя спесь пройдет.

Я тоже когда-то давно на нём программировал. А сейчас дело делаю, а не растекаюсь мыслями по LOR.

Skull ★★★★★
()
Ответ на: комментарий от question4

> А рожа не треснет? :) Вас много, он один.

А это разве не *** OFFICIAL CUNEIFORM-QT THREAD ***?

> Поискал. Есть, но вне ядра, на линукс ещё не перенесли.

Т.е. нет, ничего с момента моих поисков не изменилось.

> О! Допили Ocropus. Хоть для этого, хоть для твоего любимого тессеракта. Весь мирт тебе спасибо скажет.

Я свои проекты сдавать не успеваю.

> То есть не прекратило :)

А анализ форматирования вам все равно делать. Т.е. разбивание на абзацы и строки. А если так - то тессекрат тут тоже будет отлично работать.

EmStudio
()
Ответ на: комментарий от EmStudio

> Кривите душой - 2 дня назад оно уже было, вы пиарились в своем блоге.

Фи, я думал, хоть даты коммитов посмотрите. Дата записи в блоге: 06 Апрель 2009 @ 20:35. Даже двое суток не прошло.

Skull ★★★★★
()
Ответ на: комментарий от Skull

> А зачем мне напрягаться с WINE? Если хоть на xlib (гы, вспомнил Hansa Financial) или на GTK+ — меня не напрягает.

Т.е. GTK+ не напрягает, а WINE - напрягает? Несколько странно.

EmStudio
()
Ответ на: комментарий от EmStudio

> Дада, посмотрел. Не успели сделать - полезли пеаритцо.

А слабо свой какой-нибудь общеполезный проект засветить. Для конструктивного промывания косточек, так сказать ;)

Bod ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.