LINUX.ORG.RU
ФорумTalks

хвалёный djvu + ocr


0

0

Итак, я распознал имеющуюся у меня книгу в формате djvu и даже уже засунул в неё ocr-слой. Теперь можно выделить участок страницы и скопировать текст оттуда. Однако я изначально хотел другого: как сделать, чтобы мохнатые нечитаемые буковки стали гладкими и блестящими?

Желательно Ъ-два_клика-way. Спасибо. Срач не нужен.

★★

Ответ на: комментарий от mirocumo

> А что за книга?

да, не важно. Пусть будет «Дневник Мата Хари».

name_no ★★
() автор топика
Ответ на: комментарий от ip1981

> Это картинка, брат. Отсканировано с малым разрешением.

вот я и думаю, может, есть способ отрисовать буквы заново - там же такой весь из себя формат, который умеет почти всё

name_no ★★
() автор топика

>Ъ-два_клика-way

Ъ не используют мышь.

jcd ★★★★★
()

Не специалист по djvu, но может просто удалить исходный слой? Или подставить пустоту туда..

vkos ★★
()
Ответ на: комментарий от name_no

Задача djvu — сжать картинку с текстом.

OCR в дежавю нужен лишь для грубой индексации.

Желаемая «круглось» распознанных буковок обратится унылостью нераспознанных шмотков типа дробей, индексов и прочей внеASCII-шности.

Но это конечно если речь не идет об ГСМ-макулатуре без формул.

mclaudt
()
Ответ на: комментарий от mclaudt

Спасибо, понятно. Видимо, лучшим вариантом было бы сделать fb2, но тогда придётся вычитывать, а это 1000 страниц %)

name_no ★★
() автор топика
Ответ на: комментарий от name_no

>Видимо, лучшим вариантом было бы сделать fb2

Так ты сам сканил? Тогда все претензии к своим «мохнатым» ручкам. Буквы ему мохнатые, панимаиш :)

Attila ★★
()
Ответ на: комментарий от Attila

> Так ты сам сканил?

нет, у меня есть djvu, который на мой взгляд совершенно невозможно читать, но который кое-как разобрал finereader

name_no ★★
() автор топика
Ответ на: комментарий от SuikaFromOuterSpace

>>так вроде современные распознавалки научились отделять plain текст от формул и картинок?

Даже если это и так, в техническом тексте они всё равно пока бессильны — там всё вперемешку.

Вот разработают аналоговые нейросетевые сопроцессоры — тогда можно будет им поручать распознавать сразу в LaTeX.

mclaudt
()

Переверстать. OCR-слой в djvu предназначен сугубо для поиска и копипасты, вывод его шрифтами не предусмотрен.

MadCAD ★★
()
Ответ на: комментарий от mclaudt

наверняка что то полуавтоматическое должно быть, чтоб система задавала вопросы в проблемных метстах и результат получался напоодобие работы latex2rtf

тогда можно будет им поручать распознавать сразу в LaTeX.


это уже не искуственный идиот, а искуственный разум получится.

SuikaFromOuterSpace
()
Ответ на: комментарий от ip1981

>Это картинка, брат. Отсканировано с малым разрешением.

Давным-давно при написании курсака или диплома я плохо отсканированные страницы с «лохматыми буквами» пропускал через спец фильтры в редакторах растровой графики, мохнатость убиралась и картинки хорошо распознавались в ocr...

BAN
()
Ответ на: комментарий от name_no

>может, есть способ отрисовать буквы заново

фильтры в растровой графике...

BAN
()
Ответ на: комментарий от name_no

>> Так ты сам сканил?

нет


Тогда извини за '«мохнатые» руки', я погарячился.

Attila ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.