LINUX.ORG.RU

Обучение tesseract 3.03 новому языку

 , , ,


0

4

В который раз свела меня нелёгкая с этим прекрасным продуктом. На сей раз дело не ограничилось русским и английским языками со стандартными шрифтами «из коробки». Мне попал в руки шрифт с латинницей, но на 21 символ (без некоторых букв), причём в данном алфавите не существует символов в нижнем регистре. Распознавание стандартной латинницей в тессеракте очевидно даст неоднозначность. Было принято решение создать новый язык (я не знаю, как повезет себя тессеракт, если я суну ему шрифт с неполным алфавитом и скажу, что это - латинница). На новую версию был успешно нагуглен ман: https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 На первый взгляд все очевидно и хорошо разжёвано, однако, как и ожидалось, строптивая натура тессеракта дала о себе знать. 3 часа компилирования лептоники и тессеракта были только началом. Наконец, все нужные утилиты собраны, приступаем к выполнению инструкций. Пункт «NEW Automated method» выполнен успешно, все буквы на месте, box-файл создан. Далее фраза

If you can use text2image for your application, great! Now skip to Run Tesseract For Training below.

намекает, что можно пропустить половину инструкций для тех, кому повезло, и приступить к самому интересному. Пункт

Run Tesseract for Training

содержит две команды «на выбор», ни одну из которых tesseract-3.03 не признаёт валидной, воспринимая команды после tiff файла, как ... файлы и, естественно, мы получаем

No such file

, правда как warning, что вдвойне странно. Далее происходит какой-то процесс, не выдающий ничего, кроме ошибки распознавания (никак не обучения) второй страницы (еще бы, у меня всего один семпл). На этом моменте я опустил руки, сославшись на корявость мана. После передышки попробовал выполнить операции ниже по тексту, однако получил гору ошибок и окончательно расстроился. Приму любую помощь, даже моральную. Взамен могу предложить хороший заряд в карму через медитацию.

Я как-то развлекался заставляя его распознавать китайские иероглифы, весьма печально получалось, нормальный результат только с высококонтрастным текстом на выровненном чб изображении, причём посторонних элементов быть не должно. А ведь abby finereader достаточно хорошо работает, только таблички с картинками не всегда распознавал и нужна была вычитка (спеллчекер встроен). Ну и с формулами совсем никак не дружил. Неужели всё так плохо, это ведь проект гугла?

wakuwaku ★★★★
()
Последнее исправление: wakuwaku (всего исправлений: 1)
Ответ на: комментарий от wakuwaku

Сыроват он еще, но это не суть. Бинаризованные, подогнанные под размер изображения я ему обеспечу, ибо активно использую OpenCV. Суть в том, чтобы он распознавал только по этому шрифту.

iGriffer
() автор топика
Ответ на: комментарий от wakuwaku

Словарный запас тоже маловат показался, вместо некоторых понятных иероглифов выдавал несколько совершенно других. о_0

wakuwaku ★★★★
()
Ответ на: комментарий от wakuwaku

На русский и английский запас у него нефиговый, я многих матов оттуда и не знал =) Сейчас мне нужно исключительно посимвольное распознавания, символы сам нарезаю. После сегодняшних приключений склоняюсь к реализации через k-nearest, но тему с тессерактом хотелось бы закрыть.

iGriffer
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.