LINUX.ORG.RU

Кстати, а ни у кого нет желания попробовать обучить Clara русскому? Согласно документации к ней, необходимо сделать описания символов и еще кое-что. Как говорят разработчики, они пробовали, но у них получается нечто немеряного объема.

Хочу на досуге попробовать. Пока читаю clara-dev и clara-adv. Хочется надеяться, что что-нибудь получится.

P.S. Почему Clara? Лично мне она больше понравилась из-за того, что это обучаемая система с довольно проствм процессом обучения ("масло масляное" сказал, но ничего другого не лезет).

Obidos ★★★★★
()

A mozhet ty rasskazhesh kak voobche s etoj Clara rabotat' - dazhe s english textom eto ne prosto. To cto ona obuchaemaja - eto da, eto i mne ponravilos'.

anonymous
()

Там в документации (учебник) описано на примере, поставляемом с ней. У меня заняло примерно минут двадцать для того, чтобы понять, как распознать приложенный пример и проделать это самому.

Излагать тут, честно говоря, ломает (цитировать приличный кусок учебника, попутно переводя его на русский язык, ибо по-английски понимают тут не все). На самом деле все довольно просто, если первый раз "тупо" следовать учебнику.

Для случая Clara-0.9.9 это будет сказанное в clara-doc/clara-tut.html. Файл для теста можно взять, например, идущий с ней imre.pbm, либо самому соорудить *.pbm с разрешением 600dpi (например, взяв некий 1-станичный LaTeX-документ, сделать из него *.ps и перевести в *.pbm или отсканировать какой-либо английский текст на 600dpi).

Obidos ★★★★★
()

OCR должен 1) СКАНИРОВАТЬ 2) НЕМЕДЛЕННО и Автоматом / по нажатию 1! кнопки распознавать 3) сохранять текст

Если на то, чтобы понять как распознать пример (!) уходит 20 мин - то это ещё не программа, а сырьё.

anonymous
()

для этого и существуют frontend'ы. Kooka тому пример. Все одной кнопкой.

logIN
() автор топика

А как она по сравнению с FineReader? Насколько я понял из предыдущих постингов у нее очень много настроек. Что в общем-то есть хорошо. А-то FineReader все пытается "!" везде ставить при распознавании моего текста, что напрягает, ибо это учебник по философии. :-)

А что означает обучаемость?

anonymous
()

Да что Клара, что GOCR пошли по тупиковому пути, от которого ScanSoft (точнее, Recognita, но это детали), Cognitive и Abbyy отошли лет 7 назад. И ни та, ни другая не могут тягаться даже с CuneiForm 4. Естественно, на тех языках, которые понимают. Единственный серьезный плюс GOCR - она формулы понимает и переводит их в TeX нотации.

anonymous
()

> А что означает обучаемость?

Когда Clara не знает, как распознать символ, ей можно указать, что это, например, 'а'. После чего все или почти все (в зависимости от качества скана) такие же символы будут распознаны.

Obidos ★★★★★
()

"Да что Клара, что GOCR пошли по тупиковому пути, от которого ScanSoft (точнее, Recognita, но это детали), Cognitive и Abbyy отошли лет 7 назад."
И по какому они пошли ??? Вроде же везде используют одни и те же нейронные сети...

LamerOk ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.