LINUX.ORG.RU

Графическая оболочка для системы распознавания текста tesseract


0

0

Программист с ником nguyenq написал простую графическую оболочку для OCR-системы tesseract. Оболочка написана на Java и находится в стадии ранней беты, но уже вполне пригодна для распознавания отдельных страниц текста.

К её достоинствам относится возможность автоматической конвертации распознаваемой картинки в понимаемый tesseract формат. Ранее все картинки приходилось вручную конвертировать в разновидность tiff.

Желающие дописать недостающий функционал и исправить баги могут связаться с автором в форуме http://groups.google.com/group/tesser...

Оболочка также способна использовать в качестве системы распознавания программу gocr, однако эта программа не способна распознавать русский шрифт, и в едва ли в ближайшее время этому научится.

В отличии от gocr, программа tesseract уже сейчас может быть обучена русскому, а в ближайшее время авторы обещают коренным образом исправить ситуацию с распознаванием неанглийских текстов.
Об обучении tesseract русскому языку см. http://groups.google.com/group/tesser...

(для работы оболочки необходимо указать в настройках каталог, содержащий бинарник tesseract)

>>> Подробности

Re: Графическая оболочка для системы распознавания текста tesseract

А ведь близится открытие CuneiForm...

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

Гуи, шмуи

лучше алгоритм посмотрел бы

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

java усё этим сказано

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

1. жаба. Без комментариев

2. gocr тоже обучается русскому. По крайней мере пару лет назад я его ковырял - там надо просто при компиляции включить pattern-engine (или как там). Другое дело, что какчество распознавания никакое

geek ★★★ ()

Re: Графическая оболочка для системы распознавания текста tesseract

Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

>Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

Отличная новость! Автору и джаве ура!

O-Ren_Ishii ()

Re: Графическая оболочка для системы распознавания текста tesseract

Чего на жабку то накинулись, мож там труЪ swt с Gtk.

sabonez ★☆☆☆ ()

Re: Графическая оболочка для системы распознавания текста tesseract

>Под wine`ом пока юзаю весьма доволен

Интересует прежде всего не юзание под вайном, а двигло. Мордаху на двигло можно любую натянуть. А можно и без оной. Из cmd.

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

ФайнРидерКапец!

laune ()

Re: Графическая оболочка для системы распознавания текста tesseract

>>Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

>Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

+10 ЛОР = ОРАЛО все только орут, но реально мало кто че делает сам )

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

> Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

Чем gtk+ не устраивает? Пишешь gui на чистом C.

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

Гыыыыыыыыыыыыы :)
Думаю, че не пашет! Укажи паф. укажи паф... Да до усера можно указывать, ибо tesseract.exe под линуксом не запускается без жервенных костров.

Опять же пример на вьетнамском языке. :)

2asdf128 Шутку понял. Смешно.

vada ★★★★★ ()

Re: Графическая оболочка для системы распознавания текста tesseract

Ну когда же наконец то?!?!? у меня книг фотканых немеряно и без них никуда..=(

bioreactor ★★★★★ ()

Re: Графическая оболочка для системы распознавания текста tesseract

>у когда же наконец то?!?!? у меня книг фотканых немеряно и без них никуда..=(

Читай по фоткам. Эта шняга никогда...

vada ★★★★★ ()

Re: Графическая оболочка для системы распознавания текста tesseract

Было на лоре в галерее про тессеракт этот и русский - там вроде всё очень грустно.

Я вот пользовался cuneiform под вайном - распознает очень даже неплохо, нормально отсканированнный текст распознавало без ошибок. Осталось дождаться открытия исходных кодов:) Тогда никакой тессеракт не нужен будет.

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

>Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

Сколько?

r ★★★★★ ()

Re: Графическая оболочка для системы распознавания текста tesseract

>Чем gtk+ не устраивает? Пишешь gui на чистом C.

Все ждут когда ты морду к тесерракту на нем напишешь.

r ★★★★★ ()

Re: Графическая оболочка для системы распознавания текста tesseract

у меня прекрасно запустилась эта гуй-морда к тессеракту, пришлось только линки прописать - см. мою переписку с автором в форуме проекта tesseract. После прописывания программа увидела тессеракт и прекрасно распознала несколько очень страниц из серии "плохой факс на дрянной бумаге на которую ставили кружку с кофе".

asdf128 ()

Re: Графическая оболочка для системы распознавания текста tesseract

> А ведь близится открытие CuneiForm.

Скорее всё отдаляется и отдаляется. После предъявы и перевода CuneiForm на freeware основу никаких телодвижений кроме создания дырявого неоформленного говнофорума "для управления open-source проектом" сделано не было.

anonymous ()

Re: Графическая оболочка для системы распознавания текста tesseract

> А ведь близится открытие CuneiForm... Под wine`ом пока юзаю весьма доволен

А у меня под последним вайном не идёт.

anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.