LINUX.ORG.RU

Cuneiform и Tesseract

 ,


0

3

Всем доброго времени суток! Решив изучить программы OSR на линукс, установил Cuneiform и Tesseract и словари к ним. Для Cuneiform использую GUI YAGF. Суть вопроса в том что при открытии YAGFом png картинки программа выключается, а выхлоп в консоли пишет ошибку сегментирования. Tiff тоже самое. А по teeseract ищу как правильно задавать значения.хотелось бы еще найти внятные маны по их использованию. Ах да забыл, OC GNU\Linux Debian 8 Jessie(Stable). Спасибо!

YAGF и с тессерактом работать может, но YAGF глючный несколько - при большом pdf файле у него раньше память текла рекой (мне 16 Гб оперативки не хватало).

peregrine ★★★★★
()
Ответ на: комментарий от NightFobos

дак в консольке скорми картинку. По мне первый получше второго...

anonymous
()

А по teeseract ищу как правильно задавать значения

cuneiform -l ruseng -o txt.txt img.jpg

tesseract img.jpg txt -l rus

anonymous
()

Перед тессерактом лучше фотографию сделать черно-белой (например в GIMP) и убедиться, что все читаемо.

anonymous
()
Ответ на: комментарий от anonymous

лорчую!

например так (gimp):

  1: Изображение->Режим->Градации серого
  2: Фильтры->Выделение края->Разница по Гауссу(Радиус 1: 100, Радиус 2: 1)
  3: Цвет->Порог(Нижняя граница в районе 230)
с параметрами следует поиграться в зависимости от характера шота

exception13 ★★★★★
()
Ответ на: комментарий от exception13

Благодарю! Сделаю, отпишусь! Кстати, используя gui ocrfeeder, мне нужно было распознать страницу с русскими и немецкими словами, так вот tesseract немецкие слова опознает, а вместо русских пишет какую то абракадабру. Как это побороть?

NightFobos
() автор топика
Ответ на: комментарий от NightFobos

язык ему задать. Он бедный среди этой вашей кириллицы ищет похожие знаки на родной ему латинице.

feofan ★★★★★
()
Ответ на: комментарий от feofan

ну так я ему указываю русский язык, а он его в упор не понимает. И даже на тестовой четкой фотографии опознает неверно, провертл на различных фото, результат тот же.

NightFobos
() автор топика
Ответ на: комментарий от feofan

Возможно я ошибаюсь,но tesserakt использует aspell, а ru, ger установлены. И что тогда не так? Finereader все прекрасно раcпознает. То что тогда не так с данными linux ocr?

NightFobos
() автор топика
Ответ на: комментарий от NightFobos

Возможно tesseract и использует aspell, но не для непосредственно распознавания. Тебе нужна модель русского языка именно для тессеракта. Можешь даже сам обучить. Но быстрее скачать готовую. Лучше всего из репов твоего дистрибутива (если, конечно, оно там есть). Например в archlinux пакет называется community/tesseract-data-rus

feofan ★★★★★
()
Ответ на: комментарий от NightFobos

Так, я скормил изображение более высокого разрешения tesseractu, он распознал таки русский, хоть и не везде но все же. А мне надо бы чтобы он в одноаременно распознал 2 языка. А в настройках GUI можно только однин язык выбрать. Как это сделать? Сейчас я использую (GUI OCRFeeder).

NightFobos
() автор топика

Надо лезть yagf в правка -> настройки -> обработка изображений. И убрать все галочки. И еще что бы выставить по умолчанию русский надо вручную править файл настроек.

qwerta
()
Последнее исправление: qwerta (всего исправлений: 1)
Ответ на: комментарий от NightFobos

Мне сейчас нужно только одну фотографию текста обработать.

Если количество малое, то проще в онлайн

https://finereaderonline.com/ru-ru (бесплатно несколько страниц за какой-то период)

tesseract и cuneiform далеко по качеству до finereader. Они более-менее на совсем простых текстах, где нет смешения русского и английского, всяких формул, таблиц и прочего.

anonymous
()
Ответ на: комментарий от anonymous

Из онлайн сервисов так же есть https://www.newocr.com (он как раз толи на Cuneiform или Tesseract)

Но суть - применяет предобработку изображений перед подачей её в OCR систему

anonymous
()

Чем мучиться с этими глюковатыми поделками, лучше finereader 8 в вайне. Ну или онлайн версию, если пару страниц надо.

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

Что ж. Спасибо. Буду тогда так распознавать.

NightFobos
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.