Распознавание текста (в десктопных целях)

cuneiform, sane, tesseract, xsane, распознавание

0

2

Что лучше использовать для распознавания текста в десктопных целях(то есть, не распознавание картиночного спама в МТА, и для других применений на сервере)? FineReader под Wine, или tesseract, cuneiform?

cuneiform -l rus -o 1.txt out.bmp

Где out.bpm конвертированный image magick (просто convert out.pnm out.bmp) скан с помощью xsane с дефольтными настройками создает пустой файл 1.txt, не выводя никаких ошибок

tesseract out.png out_.txt -l rus

Создает UTF-8 текстовый файл с текстом, только распознанным совершенно не верно.

Может быть, нужны какие-то специфические настройки для сканера? Изображение по-умолчанию со сканера пожалуй особенной контрастностью не страдает.

Ссылка

← pcmanfm задолбал

Проголосуйте за баг в LibreOffice →

У меня в убунте cuneiform и быстрее и лучше распознает, чем tesseract.

Рекомендую cuneiform.

anonymous
(05.01.14 02:31:22 MSK)

Ответ на: комментарий от anonymous 05.01.14 02:31:22 MSK

А с какими параметрами Вы сканируете?

sHaggy_caT
(05.01.14 10:11:57 MSK) автор топика

Ответ на: комментарий от sHaggy_caT 05.01.14 10:11:57 MSK

С теми, что и вы.

http://i.imgur.com/1Oi3H3M.jpg Вот такого вида скан старого журнала.

во ВАЕ Так, на основе устаревших В. Мк. 2 появились учебные машины Т. Мк. 21. В экспериментальном порядке те же «двойки» переоборудовались в беспилотные самолеты-мишени (). Мк. 10. Наиболее удачными можно считать две . модификации, выпущенные в небольшом

Это cuneiform.

во КАР. Так, на основе устаревших В. Мк. 2 появшшсь учебные матшшы Т. Мк. 21. В экспериментальном порядке те Же «двойки» переоборудовались в бестпшотные самоле- ты—мишетш О. Мк. 10. Наиболее удачньши можно считать две . модификации, вьшущенные в небольшом

А это tesseract.

anonymous
(05.01.14 12:47:41 MSK)

Ссылка

Ответ на: комментарий от sHaggy_caT 05.01.14 10:11:57 MSK

Устанавливал и cuneiform и tesseract из этого ppa:

https://launchpad.net/~alex-p/ archive/notesalexp-raring

anonymous
(05.01.14 13:05:14 MSK)

Ответ на: комментарий от anonymous 05.01.14 13:05:14 MSK

У меня тоже распознает Вашу картинку:

============== cuneiform -l rus -o 2.txt 1Oi3H3M.bmp Cuneiform for Linux 1.1.0

tesseract 1Oi3H3M.bmp 2_.txt -l rus Tesseract Open Source OCR Engine v3.01 with Leptonica

cat 2.txt во КАР. Так, на основе устаревших В. Мк. 2 появились учебные машины Т. Мк. 21. В экспериментальном порядке те же «двойки» переоборудовались в беспилотные самолеты-мишени 13. Мк. 10. Наиболее удачными можно считать две . модификации, выпущенные в небольшом

cat 2_.txt cat: 2_.txt: Нет такого файла или каталога

cat 2_.txt.txt во КАР. Так, на основе устаревхшіх В. Мк. 2 появшшсь учебные малппш Т. Мк. 21. В экспсримешальном порядке те же «двоўпси» переоборудовшшсь в бесшшотные самоле- тъп-мшлеъш Ш. Мк. 10. Наиболее удачнъши можно считать две модифш<э.циуЕ, вьптущсшше в небольшом ============

А вот мой скан не распознает, да и на вид контрастность Вашего скана куда больше! Расскажите, пожалуйста, как Вы сканируете, что бы я могла воспроизвести Ваш результат, и Вы мне очень поможете!

sHaggy_caT
(05.01.14 16:40:48 MSK) автор топика

Ответ на: комментарий от sHaggy_caT 05.01.14 16:40:48 MSK

Ой, тут форматировать нужно специфическим образом, сорри, не привыкла :(

sHaggy_caT
(05.01.14 16:41:37 MSK) автор топика

Ссылка

Ответ на: комментарий от sHaggy_caT 05.01.14 16:40:48 MSK

Сканирую полноцветное изображение с не менее чем 300 dpi, сохраняю в png. В xSane есть настройки яркости и контрасности, плюс авнонастройка (Ctrl-a) — если контрасность скана низкая, можно их покрутить. У меня простое МФУ hp там довольно несерьезный сканер. Вообще для распознования текста лучше сканировать в штриховом (двухцветном) режиме с разрешением 600 dpi, возможно так будет лучше.

anonymous
(05.01.14 17:25:20 MSK)

Ответ на: комментарий от anonymous 05.01.14 17:25:20 MSK

А что нажимать-то? Или консольные опции подскажите кто-нибудь плиз :( Если бы получалось, тему на форуме не создала бы....

sHaggy_caT
(05.01.14 18:40:46 MSK) автор топика

вообще есть гуевый хомячковый yagf, он поддерживает и cuneiform и tesseract

fornlr ★★★★★
(05.01.14 18:42:02 MSK)
Последнее исправление: fornlr 05.01.14 18:43:01 MSK (всего исправлений: 1)

Ответ на: комментарий от fornlr 05.01.14 18:42:02 MSK

через yagf не распознаёт, и я консоли не боюсь :)

Чем поможет yagf, который сканирует через xsane? Если бы он сканировал через консольный sane с кастомными, yagf-ыми параметрами, то мог бы помочь.

sHaggy_caT
(05.01.14 18:54:07 MSK) автор топика

Ответ на: комментарий от sHaggy_caT 05.01.14 18:40:46 MSK

В xSane в нижней части окна есть три ползунка:

http://i.imgur.com/Hu36pPe.png

Гамма, яркость и контрастность. Вот их и крутить, стараясь сделать изображение четче. Плюс там есть кнопочка, третья слева, которая должна помочь выставить оптимальные настройки для изображения.

anonymous
(05.01.14 19:01:34 MSK)