LINUX.ORG.RU

Графическая оболочка для системы распознавания текста tesseract


0

0

Программист с ником nguyenq написал простую графическую оболочку для OCR-системы tesseract. Оболочка написана на Java и находится в стадии ранней беты, но уже вполне пригодна для распознавания отдельных страниц текста.

К её достоинствам относится возможность автоматической конвертации распознаваемой картинки в понимаемый tesseract формат. Ранее все картинки приходилось вручную конвертировать в разновидность tiff.

Желающие дописать недостающий функционал и исправить баги могут связаться с автором в форуме http://groups.google.com/group/tesser...

Оболочка также способна использовать в качестве системы распознавания программу gocr, однако эта программа не способна распознавать русский шрифт, и в едва ли в ближайшее время этому научится.

В отличии от gocr, программа tesseract уже сейчас может быть обучена русскому, а в ближайшее время авторы обещают коренным образом исправить ситуацию с распознаванием неанглийских текстов.
Об обучении tesseract русскому языку см. http://groups.google.com/group/tesser...

(для работы оболочки необходимо указать в настройках каталог, содержащий бинарник tesseract)

>>> Подробности

Гуи, шмуи

лучше алгоритм посмотрел бы

anonymous
()
Ответ на: комментарий от anonymous

> А ведь близится открытие CuneiForm...

А мужики-то не знают :-)))

ysagat
()

1. жаба. Без комментариев

2. gocr тоже обучается русскому. По крайней мере пару лет назад я его ковырял - там надо просто при компиляции включить pattern-engine (или как там). Другое дело, что какчество распознавания никакое

geek ★★★
()
Ответ на: комментарий от anonymous

> java усё этим сказано

Эт' да.

anonymous
()

Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

anonymous
()
Ответ на: комментарий от anonymous

>Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

anonymous
()

Отличная новость! Автору и джаве ура!

O-Ren_Ishii
()

Чего на жабку то накинулись, мож там труЪ swt с Gtk.

sabonez ★☆☆☆
()
Ответ на: комментарий от anonymous

>Под wine`ом пока юзаю весьма доволен

Интересует прежде всего не юзание под вайном, а двигло. Мордаху на двигло можно любую натянуть. А можно и без оной. Из cmd.

anonymous
()
Ответ на: комментарий от geek

> 1. жаба. Без комментариев

Хоть в кой-то веки согласен с гиком. жаба (

AiFiLTr0 ★★★★★
()
Ответ на: комментарий от anonymous

>>Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

>Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

+10 ЛОР = ОРАЛО все только орут, но реально мало кто че делает сам )

anonymous
()
Ответ на: комментарий от anonymous

> Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

Чем gtk+ не устраивает? Пишешь gui на чистом C.

anonymous
()

Гыыыыыыыыыыыыы :)
Думаю, че не пашет! Укажи паф. укажи паф... Да до усера можно указывать, ибо tesseract.exe под линуксом не запускается без жервенных костров.

Опять же пример на вьетнамском языке. :)

2asdf128 Шутку понял. Смешно.

vada ★★★★★
()
Ответ на: комментарий от bioreactor

>у когда же наконец то?!?!? у меня книг фотканых немеряно и без них никуда..=(

Читай по фоткам. Эта шняга никогда...

vada ★★★★★
()

Было на лоре в галерее про тессеракт этот и русский - там вроде всё очень грустно.

Я вот пользовался cuneiform под вайном - распознает очень даже неплохо, нормально отсканированнный текст распознавало без ошибок. Осталось дождаться открытия исходных кодов:) Тогда никакой тессеракт не нужен будет.

anonymous
()
Ответ на: комментарий от anonymous

>Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

Сколько?

r ★★★★★
()
Ответ на: комментарий от anonymous

>Чем gtk+ не устраивает? Пишешь gui на чистом C.

Все ждут когда ты морду к тесерракту на нем напишешь.

r ★★★★★
()
Ответ на: комментарий от r

у меня прекрасно запустилась эта гуй-морда к тессеракту, пришлось только линки прописать - см. мою переписку с автором в форуме проекта tesseract. После прописывания программа увидела тессеракт и прекрасно распознала несколько очень страниц из серии "плохой факс на дрянной бумаге на которую ставили кружку с кофе".

asdf128
() автор топика
Ответ на: комментарий от anonymous

> А ведь близится открытие CuneiForm.

Скорее всё отдаляется и отдаляется. После предъявы и перевода CuneiForm на freeware основу никаких телодвижений кроме создания дырявого неоформленного говнофорума "для управления open-source проектом" сделано не было.

anonymous
()
Ответ на: комментарий от anonymous

> А ведь близится открытие CuneiForm... Под wine`ом пока юзаю весьма доволен

А у меня под последним вайном не идёт.

anonymous
()
Ответ на: комментарий от anonymous

>java усё этим сказано

ну и что? человек пытается освоить Жабу! - пусть учится

AleX ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.