xsane+cuneiform

0

0

Понадобилось отсканировать в тексте книгу (попросила девушка на работе), ну думаю приехали, придётся Fine Reader под wine пиратить ;). Вспомнил про cuneiform (пробовал голый движок ради спортивного интереса ещё весной прошлой вроде), но стало интересно про фронтенды для него, как там дела обстоят. Нагуглил YAGF и cuneiform-qt, но хочется соответственно на GTK - а нету ... кроме Xsane, вот с ним родным и «оцеэрю» :). Полёт нормальный - за второе ночное дежурство половину книги в ~500 страниц отсканил не напрягаясь. Вот это «тире»=вЂ” достало правда (надо найти будет), но не проблема вообщем - в ООо заменяемо.

Параметры сканирования видны на скрине. Всё по-умолчанию, только gocr заменил на cuneiform. Больше 150 dpi в принципе смысла ставить нет (200 получше, но когда как, да и время сканирования страницы раза в 1,5 увеличивается), а если меньше (75) -cuneiform ничего не цепляет.

GTK/Metacity - Wasp-Hard-Drakfire-Mod

Icons - LaGaDesk-TechoLike

Fonts - Sans/Terminus

Wallpaper - from gnome-look.org

Ссылка

← Школьнег's desktop

midori а-ля Chrome →

← 1 2 →

Иконки вырвиглазьнинькие.

Hetor ★
(26.01.10 08:57:42 MSK)

Ссылка

текст какой-то знакомый

overmind88 ★★★★★
(26.01.10 09:22:50 MSK)

Ссылка

ахъ, это же перумов, неужто его нет в эл. виде?

overmind88 ★★★★★
(26.01.10 09:23:12 MSK)

Ответ на: комментарий от overmind88 26.01.10 09:23:12 MSK

Особо не искал, но где натыкался - лохотроны одни, да и не легально же, не? ;)
Мне не трудно, заодно хоть сканер со стеллажа достал :)

amorpher ★★★★★
(26.01.10 09:41:40 MSK) автор топика

А альтернативы этому движку совсем завяли?

~~Hokum~~ ☆☆☆☆
(26.01.10 09:50:38 MSK)

Ответ на: комментарий от amorpher 26.01.10 09:41:40 MSK

ну вот тут есть легально: http://litres.ru/pages/biblio_authors/?subject=44948&sort=genre

для некоторых и на либрусековых зеркалах легально скачивать :)

overmind88 ★★★★★
(26.01.10 10:20:01 MSK)

Ссылка

Ответ на: комментарий от Hokum 26.01.10 09:50:38 MSK

для русского языка? да

для английского gocr и tesseract есть

overmind88 ★★★★★
(26.01.10 10:20:55 MSK)

Ссылка

Как у cf с распознаванием текстов на нескольких языках? Со сложным форматированием?
Не совсем понял смысла сканировать в цвете и на 150 dpi. 300 dpi line art для распознавания - самый идеальный вариант, да и скорость приемлемая.

petrosyan ★★★★★
(26.01.10 12:40:30 MSK)

Ответ на: комментарий от petrosyan 26.01.10 12:40:30 MSK

>Как у cf с распознаванием текстов на нескольких языках?

Одновременно? Никак :(

Со сложным форматированием?

Ну жирный и курсив разбирает (если в html гнать).

сканировать в цвете и на 150 dpi. 300 dpi line art для распознавания - самый идеальный вариант, да и скорость приемлемая.

Сильно не разбирался, но если не в цвете (при 150) - то даже текста на выходе практически никого, не говоря уже про корректность распознанного.

amorpher ★★★★★
(26.01.10 12:52:56 MSK) автор топика

Ссылка

Ответ на: комментарий от petrosyan 26.01.10 12:40:30 MSK

>300 dpi line art для распознавания - самый идеальный вариант, да и скорость приемлемая.

Сейчас попробовал - действительно так лучше.

amorpher ★★★★★
(26.01.10 13:00:39 MSK) автор топика

Ссылка

Недавно я пробовал пользоваться cuneiform — убогая штука.

nikotyn ★
(26.01.10 21:20:49 MSK)

Ответ на: комментарий от nikotyn 26.01.10 21:20:49 MSK

Пока что есть, но текст распознаёт классно.

amorpher ★★★★★
(26.01.10 21:40:07 MSK) автор топика

Ответ на: комментарий от amorpher 26.01.10 21:40:07 MSK

Если бы распознавало классно я бы промолчал :)

nikotyn ★
(27.01.10 00:15:30 MSK)

Ответ на: комментарий от nikotyn 27.01.10 00:15:30 MSK

французсский язык пошел на ура, кинжку сканировал разворотами - никаких проблем кроме нумреции, которая вечно сбивалась в кучу, и уже упомятых тире. из всего совобоного только cf и справился.

hrum ★★★
(27.01.10 11:59:57 MSK)

Ссылка

Кастую в тред Skull.

Zodd ★★★★★
(27.01.10 12:04:56 MSK)

Ссылка

Иконки кулхацкерские

paran0id ★★★★★
(27.01.10 12:23:52 MSK)

Ссылка

Круто, чо.

Мэтр Опдуласт

Ололо (: чувствую, в некоторых местах тебе придется вручную таки исправлять.

pevzi ★★★★★
(27.01.10 12:27:33 MSK)

Ссылка

Ответ на: комментарий от amorpher 26.01.10 09:41:40 MSK

да и не легально же, не?

Дык если уже есть купленная книга в бумажном варианте, почему бы не скачать? Какая разница как пиратить — сканируя бумагу или качая из интернета? (:

pevzi ★★★★★
(27.01.10 12:29:50 MSK)

Ответ на: комментарий от pevzi 27.01.10 12:29:50 MSK

>> Мэтр Опдуласт

Ололо (: чувствую, в некоторых местах тебе придется вручную таки исправлять.

Это как на скриншоте (при 150/цветной), на 300/штрихом - намного лучше, ошибок больше (кроме тире) не заметил.

Да, и книга не моя. Я такую муть, ИМХО, не читаю :)

amorpher ★★★★★
(27.01.10 13:04:38 MSK) автор топика

Ссылка

> попросила девушка на работе

девушка с работы нашла бесплатную раб. силу полночи книгу сканить?)

awwakum ★
(27.01.10 13:22:24 MSK)

Ответ на: комментарий от awwakum 27.01.10 13:22:24 MSK

Сканю уже не я. Только в начале (когда разбирался/настраивал). Сканит помощник (тоже девушка-эникейщица ;)
Кстати, уже почти закончили.

amorpher ★★★★★
(27.01.10 13:33:04 MSK) автор топика

Ссылка

вендовенько. сканировать можно, но распознавать подобным образом - легче перепечатать. ^_^

unisky ★★
(27.01.10 14:03:04 MSK)

Ответ на: комментарий от unisky 27.01.10 14:03:04 MSK

толсто

amorpher ★★★★★
(27.01.10 14:14:11 MSK) автор топика

Ссылка

Если текст без сложного форматирования, картинок и таблиц, то вполне можно пользоваться. Колонки по одной можно распознать. Пользуюсь YAGF, cuneiform-qt что-то тупил и ничего в выводе не показал. Ошибок распознавания печатного текста практически не было. Картинки, в принципе, можно порезать из скана и прикрутить вручную. Вот таблицы - реальная проблема...

Вердикт - жить можно. Работать над развитием - нужно.

mao-tm
(27.01.10 14:24:27 MSK)

Ссылка

Ответ на: комментарий от petrosyan 26.01.10 12:40:30 MSK

> Как у cf с распознаванием текстов на нескольких языках?

Есть режим Rus+Eng; Других комбинаций по дефолту нет. Но мир не без добрых людей:

http://symmetrica.net/cuneiform-linux/

P.S. где на скриншоте GUI, собственно, для распознавания? Программу для сканирования вижу. Уже распознанный текст тоже.. CLI?

mityukov
(27.01.10 14:35:03 MSK)

Ответ на: комментарий от mityukov 27.01.10 14:35:03 MSK

>где на скриншоте GUI, собственно
Xsane

amorpher ★★★★★
(27.01.10 14:36:13 MSK) автор топика

Ссылка

Ответ на: комментарий от mityukov 27.01.10 14:35:03 MSK

>Есть режим Rus+Eng; Других комбинаций по дефолту нет. Но мир не без добрых людей:
http://symmetrica.net/cuneiform-linux/

О, спасибо большое.

amorpher ★★★★★
(27.01.10 14:37:37 MSK) автор топика

Ссылка

(попросила девушка на работе)

в ~500 страниц

Она тебя отблагодарила ? :)

Creed ★
(27.01.10 14:57:34 MSK)

Ответ на: комментарий от Creed 27.01.10 14:57:34 MSK

>Она тебя отблагодарила ? :)

написала ему в аську «Ты такой классный! Я тебя лю :-*»

lester_dev ★★★★★
(27.01.10 15:04:02 MSK)

Ссылка

А что, вполне сносно. :)

Jayrome ★★★★★
(27.01.10 15:19:29 MSK)

Ссылка

Автор, ты осторожнее. Пеумов - он писучий ппц. Забодаешься сканить полное собрание сочинений.

Hoodoo ★★★★★
(27.01.10 15:38:42 MSK)

Ссылка

>>за второе ночное дежурство половину книги в ~500 страниц

Она должна дать,просто обязана это сделать

partyzan ★★★
(27.01.10 19:44:32 MSK)

Ссылка

Как история успеха интересно конечно, но зачем сканить то, что легко можно скачать?

Вст вместо Ins - сильно!

WARNING ★★★★
(27.01.10 23:53:45 MSK)

Ответ на: комментарий от WARNING 27.01.10 23:53:45 MSK

Повторяю - особо не искал (знаю, что можно много чего скачать, надо лишь хорошенько поискать), заинтересовал сам факт возможности сабжа, ну и при положительном результате это дело продолжилось. Лично для меня это маленькое открытие, что в Линукс возможно качественно произвести OCR (да, таблицы - белое пятно, ну это со временем будет, выше ссылка на движок с комбинированным распознаванием). Я доволен.

amorpher ★★★★★
(28.01.10 00:38:56 MSK) автор топика

Ответ на: комментарий от amorpher 28.01.10 00:38:56 MSK

> попросила девушка на работе

[ ... ]

Я доволен.

Одному мне кажется, или действительно настало время рассказать самое главное?

Igron ★★★★★
(28.01.10 02:45:01 MSK)

Ссылка

Ответ на: комментарий от mityukov 27.01.10 14:35:03 MSK

о, там еще и гуй к нему есть
http://symmetrica.net/cuneiform-linux/yagf-ru.html

petrosyan ★★★★★
(28.01.10 02:52:53 MSK)

Ответ на: комментарий от petrosyan 28.01.10 02:52:53 MSK

Ага. Надо будет попробовать ради интересу, посмотреть как дела с оцр у линукса (хотя сканера нет, хехе).

pevzi ★★★★★
(28.01.10 05:17:56 MSK)

Ссылка

А кто-нибудь подскажет чем pdf в супер качестве OCR'ить?

~~gh0stwizard~~ ★★★★★
(28.01.10 12:15:29 MSK)

Ответ на: комментарий от gh0stwizard 28.01.10 12:15:29 MSK

Файнридером?

petrosyan ★★★★★
(28.01.10 12:25:12 MSK)

В общем, поставил на посмотреть сие чудо. Русский\английский вполне приемлемо распознает. На тестовой странице (правда идеального качества скан), сделал только одну досадную ошибку «тольао». Файнридер - ни одной. Скорость работы не очень порадовала. За то время пока cf распознает страничку, fr успевает справиться с тремя. На экзотических языках все гораздо хуже. Текст на румынском fr распознал почти идельно, cf - на слабую троечку.

В общем, вывод такой: если написать приличный гуй и обвесить его всякими плюшками типа сохранения в odt\pdf\djvu, редактирования отсканированных изображений и т.п., то для непривередливого домашнего пользователя будет очень неплохо. Ну а для более серьезного использования, там, конечно, еще пилить и пилить. И учитывая темпы разработки, ждать реальную альтернативу Файнридеру еще ой как долго придется.

petrosyan ★★★★★
(28.01.10 12:58:31 MSK)

Ответ на: комментарий от gh0stwizard 28.01.10 12:15:29 MSK

>чем pdf в супер качестве OCR'ить?
Зачем OCR'ить?

pdftohtml
pdftotext
pdfimages

Наконец:
http://www.freefileconvert.com/

amorpher ★★★★★
(28.01.10 13:02:01 MSK) автор топика

Ответ на: комментарий от amorpher 28.01.10 13:02:01 MSK

Спасибо! Гляну сегодня.

~~gh0stwizard~~ ★★★★★
(28.01.10 13:10:51 MSK)

Ссылка

Ответ на: комментарий от petrosyan 28.01.10 12:25:12 MSK

>Файнридером?

Хотелось бы опен-сорс.

~~gh0stwizard~~ ★★★★★
(28.01.10 13:11:30 MSK)

Ответ на: комментарий от amorpher 28.01.10 13:02:01 MSK

чем pdf в супер качестве OCR'ить?
Зачем OCR'ить?
pdftohtml
pdftotext
pdfimages
Наконец: http://www.freefileconvert.com/

Это хорошо, когда в pdf'е есть текст, а если он соткан из нераспознанных сканов? Тогда только pdfimages + cuneiform.

~~Eddy_Em~~ ☆☆☆☆☆
(28.01.10 13:14:13 MSK)

Ссылка

Ответ на: комментарий от gh0stwizard 28.01.10 13:11:30 MSK

Всем, хотелось бы опен-сорс, но пока туго с этим. Так что либо конвертить pdf в тифы + cf, чтобы православно. Либо скормить пдфку любой версии файна, чтобы быстро и надежно. Как-то так.

petrosyan ★★★★★
(28.01.10 13:45:49 MSK)