LINUX.ORG.RU
ФорумTalks

OCR Ubuntu Linux


0

0

случайно попалась на флибусте заявка на книжку, которая есть у меня очень много лет.
также имеется хреновый, но штатив с мыльницой 10 мегапикселов, если извернуться, можно фоткать.
вопрос, реально чем можно сделать за неделю хотя-бы. имею ввиду програмные средства. ubuntu 8.04, но можно и 10.04. там только текст, но русский. возможны вкрапления иностранного.



Последнее исправление: zsa (всего исправлений: 1)

имхо, только если файнридер в вайне. Родные средства пока находятся на уровне академического интереса.
Правда, есть ещё cuneiform, но оно будет не менее криво, чем файнридер в вайне, плюс только в лицензии.

Hokum ☆☆☆☆
()

tesseract-ocr оно как? заявлена обучаемость. правда мыльница она только jpg даёт, но это я думаю мелочи на 10 мегапикселах.

zsa
() автор топика

cuneiform более менее справится, надо только подсвечивать фотки в гимпе, я не знаю, почему, но фотка должна быть исключительно яркая

я приятельнице перегонял реферат из печатного в электронный - 20 страниц за два вечера, при этом с высветом я придумал только к концу работы и три-четыре темных фотки перебил руками

Ingvarr ★★★★
()

В принципе, куниформ достаточно торт. Если только текст и качество фотки нормальное будет, то должно распознать.

Yareg ★★★
()
Ответ на: комментарий от Ingvarr

Наверное, для осветления можно использовать скрипт с использованием имэйджмэджика, быстрее должно получиться.

Yareg ★★★
()

Нафоткать, отмасштабировать, скомпилить в djvu. Подробностей не знаю, но это первое, что пришло на ум.

ShTH
()
Ответ на: комментарий от Yareg

согласен, только то было где-то в сесии, мне было проще топорным методом (:

Ingvarr ★★★★
()
Ответ на: комментарий от ShTH

а по сопатке?

cuneiform очень хорошо справляется с отсканированными документами в b/w, главное правильно подобрать уровень

lazyklimm ★★★★★
()
Ответ на: комментарий от lazyklimm

куниформом не пользовался, так что не отвечаю.

ShTH
()

Cuneiform ведь чисто консольная утилита?

Я когда-то пробовал YAGF + cuneiform.
В принципе, те участки фотографии, которые были нормального качества, распознались нормально. Надо будет сканы попробовать, должно быть нормально.
http://itmages.ru/image/view/35062/620d5cdd

Но надо усиленно следить за качеством фотографии.
З.Ы. Список и прчее форматирование совершенно не понимает.

valentin_v13 ★★★
()
Ответ на: комментарий от valentin_v13

З.З.Ы. Так дерьмово выглядит, т.к. этих самых нормальных учасков снимка было мало и делалось всё наскоро.

valentin_v13 ★★★
()

Нахрена распознавать - сделай в djvu. На крайняк есть словарный указатель.

ocr-ить технарские учебники сегодня - идиотизм. Все равно ни черта не работает нормально, хоть под каким файнридером делать.

mclaudt
()

что-то я кюниформ не нашёл в дебе.
и, кстати, это книга. там жуткие завороты по углам. или по краю.

zsa
() автор топика
Ответ на: комментарий от zsa

дежавю - это для специфичных вещей. художественная литература в нём - надругательство над читателем.

zsa
() автор топика
Ответ на: комментарий от mclaudt

я вот сегодня с утра выпил 3,5 литра пива.
вечером выкушал 0,25 водки.
это всё не надо.
а я ещё на лоре, который не нужен.
и пытаюсь найти способ сделать кому-то что-то нужное.
пусть это даже пустое хотение.

zsa
() автор топика
Ответ на: комментарий от zsa

>>и пытаюсь найти способ сделать кому-то что-то нужное.

Расскажи это гусарам.

OCR-ить ГСМ-ские выделения не нужно никому в принципе. Скудоумные почитатели их талантов в отсутствие привычной жвачки для мозгов занялись бы истреблением друг друга, двигая прогресс.

mclaudt
()
Ответ на: комментарий от mclaudt

ну кому надо тот купит. у автора, или издателя.
я так делаю.
а если нет в и-нете - то гуголь не поможет. надо ручками.
и при чём тут горюче-смазочные-материалы?

zsa
() автор топика
Ответ на: комментарий от mclaudt

а поиск? я тебе назову десяток хороших книг и без указателя. и ocr слой офигенено нужен в таких.

thunar ★★★★★
()
Ответ на: комментарий от zsa

>тот купит. у автора, или издателя.

с бумажными книгами всё хорошо, пока их не так много. а вот когда их становится больше 100 хранить их неудобно, опять же надо и дома и на работе копии иметь.

thunar ★★★★★
()
Ответ на: комментарий от Ingvarr

в последних версиях файнриадера была оптимизация под распознавание фоток. А вообще можно думаю ограничится процессом «скана» и отослать фотки другому добровольцу(ам). Самое муторное это вычитка

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от annulen

пдф-сжатие это жпег а значит текст будет выглядеть как говно. и вообще текст с таблицами и формулами фоткать не рекомендуется. Сканировать с набитой рукой можно со скоростью до трех страниц в минуту. Но опять же проблема обрезки и удаления краевых искажений. Лучше просто сохрани в серый пнг и отошли специалисту

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

согласен, в последнее время решил почитать электронных книг, с мелкими ошибками просто беда, глаз режет дико

Ingvarr ★★★★
()

Обработать фотографии scantailor'ом и файнридер в вайне. Самый быстрый и надежный способ. Cuneifor пока еще не айс. С идеальными сканами он еще как-то справляется, но с фотографиями - придется повозиться.

petrosyan ★★★★★
()
Ответ на: комментарий от annulen

>лорчую djvu. Или pdf со сжатой графикой и фоновым OCR (но не знаю свободных прог, которые это умеют)

Есть ocrodjvu, он даже поддерживает cuneiform в качестве движка. Правда у меня так ничего путного не получилось. Страниц 10-15 распознает, потом сегфолтится. С движком tecerct все гуд, но он не умеет русский.

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

>Есть ocrodjvu, он даже поддерживает cuneiform в качестве движка.

он делает ocr, оставляя при этом исходную картинку?

annulen ★★★★★
()
Ответ на: комментарий от annulen

Да. Принцип работы тот же, что и виндового djvuocr

petrosyan ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.