LINUX.ORG.RU

xsane+cuneiform

 


0

0

Понадобилось отсканировать в тексте книгу (попросила девушка на работе), ну думаю приехали, придётся Fine Reader под wine пиратить ;). Вспомнил про cuneiform (пробовал голый движок ради спортивного интереса ещё весной прошлой вроде), но стало интересно про фронтенды для него, как там дела обстоят. Нагуглил YAGF и cuneiform-qt, но хочется соответственно на GTK - а нету ... кроме Xsane, вот с ним родным и «оцеэрю» :). Полёт нормальный - за второе ночное дежурство половину книги в ~500 страниц отсканил не напрягаясь. Вот это «тире»=— достало правда (надо найти будет), но не проблема вообщем - в ООо заменяемо.

Параметры сканирования видны на скрине. Всё по-умолчанию, только gocr заменил на cuneiform. Больше 150 dpi в принципе смысла ставить нет (200 получше, но когда как, да и время сканирования страницы раза в 1,5 увеличивается), а если меньше (75) -cuneiform ничего не цепляет.

GTK/Metacity - Wasp-Hard-Drakfire-Mod

Icons - LaGaDesk-TechoLike

Fonts - Sans/Terminus

Wallpaper - from gnome-look.org

>>> Просмотр (1280x1024, 859 Kb)

★★★★★

Проверено: Shaman007 ()

Иконки вырвиглазьнинькие.

Hetor
()
Ответ на: комментарий от overmind88

Особо не искал, но где натыкался - лохотроны одни, да и не легально же, не? ;)
Мне не трудно, заодно хоть сканер со стеллажа достал :)

amorpher ★★★★★
() автор топика
Ответ на: комментарий от Hokum

для русского языка? да

для английского gocr и tesseract есть

overmind88 ★★★★★
()

Как у cf с распознаванием текстов на нескольких языках? Со сложным форматированием?
Не совсем понял смысла сканировать в цвете и на 150 dpi. 300 dpi line art для распознавания - самый идеальный вариант, да и скорость приемлемая.

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

>Как у cf с распознаванием текстов на нескольких языках?

Одновременно? Никак :(


Со сложным форматированием?


Ну жирный и курсив разбирает (если в html гнать).


сканировать в цвете и на 150 dpi. 300 dpi line art для распознавания - самый идеальный вариант, да и скорость приемлемая.


Сильно не разбирался, но если не в цвете (при 150) - то даже текста на выходе практически никого, не говоря уже про корректность распознанного.

amorpher ★★★★★
() автор топика
Ответ на: комментарий от petrosyan

>300 dpi line art для распознавания - самый идеальный вариант, да и скорость приемлемая.

Сейчас попробовал - действительно так лучше.

amorpher ★★★★★
() автор топика
Ответ на: комментарий от nikotyn

французсский язык пошел на ура, кинжку сканировал разворотами - никаких проблем кроме нумреции, которая вечно сбивалась в кучу, и уже упомятых тире. из всего совобоного только cf и справился.

hrum ★★★
()

Кастую в тред Skull.

Zodd ★★★★★
()

Иконки кулхацкерские

paran0id ★★★★★
()

Круто, чо.

Мэтр Опдуласт


Ололо (: чувствую, в некоторых местах тебе придется вручную таки исправлять.

pevzi ★★★★★
()
Ответ на: комментарий от amorpher

да и не легально же, не?

Дык если уже есть купленная книга в бумажном варианте, почему бы не скачать? Какая разница как пиратить — сканируя бумагу или качая из интернета? (:

pevzi ★★★★★
()
Ответ на: комментарий от pevzi

>> Мэтр Опдуласт

Ололо (: чувствую, в некоторых местах тебе придется вручную таки исправлять.


Это как на скриншоте (при 150/цветной), на 300/штрихом - намного лучше, ошибок больше (кроме тире) не заметил.

Да, и книга не моя. Я такую муть, ИМХО, не читаю :)

amorpher ★★★★★
() автор топика

> попросила девушка на работе

девушка с работы нашла бесплатную раб. силу полночи книгу сканить?)

awwakum
()
Ответ на: комментарий от awwakum

Сканю уже не я. Только в начале (когда разбирался/настраивал). Сканит помощник (тоже девушка-эникейщица ;)
Кстати, уже почти закончили.

amorpher ★★★★★
() автор топика

вендовенько. сканировать можно, но распознавать подобным образом - легче перепечатать. ^_^

unisky ★★
()

Если текст без сложного форматирования, картинок и таблиц, то вполне можно пользоваться. Колонки по одной можно распознать. Пользуюсь YAGF, cuneiform-qt что-то тупил и ничего в выводе не показал. Ошибок распознавания печатного текста практически не было. Картинки, в принципе, можно порезать из скана и прикрутить вручную. Вот таблицы - реальная проблема...

Вердикт - жить можно. Работать над развитием - нужно.

mao-tm
()
Ответ на: комментарий от petrosyan

> Как у cf с распознаванием текстов на нескольких языках?

Есть режим Rus+Eng; Других комбинаций по дефолту нет. Но мир не без добрых людей:

http://symmetrica.net/cuneiform-linux/

P.S. где на скриншоте GUI, собственно, для распознавания? Программу для сканирования вижу. Уже распознанный текст тоже.. CLI?

mityukov
()
Ответ на: комментарий от mityukov

>где на скриншоте GUI, собственно
Xsane

amorpher ★★★★★
() автор топика
Ответ на: комментарий от Creed

>Она тебя отблагодарила ? :)

написала ему в аську «Ты такой классный! Я тебя лю :-*»

lester_dev ★★★★★
()

А что, вполне сносно. :)

Jayrome ★★★★★
()

Автор, ты осторожнее. Пеумов - он писучий ппц. Забодаешься сканить полное собрание сочинений.

Hoodoo ★★★★★
()

>>за второе ночное дежурство половину книги в ~500 страниц

Она должна дать,просто обязана это сделать

partyzan ★★★
()

Как история успеха интересно конечно, но зачем сканить то, что легко можно скачать?

Вст вместо Ins - сильно!

WARNING ★★★★
()
Ответ на: комментарий от WARNING

Повторяю - особо не искал (знаю, что можно много чего скачать, надо лишь хорошенько поискать), заинтересовал сам факт возможности сабжа, ну и при положительном результате это дело продолжилось. Лично для меня это маленькое открытие, что в Линукс возможно качественно произвести OCR (да, таблицы - белое пятно, ну это со временем будет, выше ссылка на движок с комбинированным распознаванием). Я доволен.

amorpher ★★★★★
() автор топика
Ответ на: комментарий от amorpher

> попросила девушка на работе

[ ... ]


Я доволен.


Одному мне кажется, или действительно настало время рассказать самое главное?

Igron ★★★★★
()
Ответ на: комментарий от petrosyan

Ага. Надо будет попробовать ради интересу, посмотреть как дела с оцр у линукса (хотя сканера нет, хехе).

pevzi ★★★★★
()

В общем, поставил на посмотреть сие чудо. Русский\английский вполне приемлемо распознает. На тестовой странице (правда идеального качества скан), сделал только одну досадную ошибку «тольао». Файнридер - ни одной. Скорость работы не очень порадовала. За то время пока cf распознает страничку, fr успевает справиться с тремя. На экзотических языках все гораздо хуже. Текст на румынском fr распознал почти идельно, cf - на слабую троечку.

В общем, вывод такой: если написать приличный гуй и обвесить его всякими плюшками типа сохранения в odt\pdf\djvu, редактирования отсканированных изображений и т.п., то для непривередливого домашнего пользователя будет очень неплохо. Ну а для более серьезного использования, там, конечно, еще пилить и пилить. И учитывая темпы разработки, ждать реальную альтернативу Файнридеру еще ой как долго придется.

petrosyan ★★★★★
()
Ответ на: комментарий от amorpher

чем pdf в супер качестве OCR'ить?

Зачем OCR'ить?

pdftohtml

pdftotext

pdfimages

Наконец: http://www.freefileconvert.com/

Это хорошо, когда в pdf'е есть текст, а если он соткан из нераспознанных сканов? Тогда только pdfimages + cuneiform.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от gh0stwizard

Всем, хотелось бы опен-сорс, но пока туго с этим. Так что либо конвертить pdf в тифы + cf, чтобы православно. Либо скормить пдфку любой версии файна, чтобы быстро и надежно. Как-то так.

petrosyan ★★★★★
()
Ответ на: комментарий от zgrge

Это почему, интересно? Не осилил cuneiform к xsane прикрутить? Так ты спроси.

amorpher ★★★★★
() автор топика
Ответ на: комментарий от petrosyan

для меня FineReader c 5 версии лучше не становится, правда ни кто из конкурентов близко не подошёл (пятерка с ключевой дискетой до сих пор валяется)

winnersgroup
()
Ответ на: комментарий от winnersgroup

Изменения в движке есть, особенно для нестандартных языков,хоть они и не столь замены.

petrosyan ★★★★★
()

Хинт: на флибуста.нет этот текст наверняка есть. Зачем мучить себя сканированием?

ccoder
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.