хвалёный djvu + ocr

0

0

Итак, я распознал имеющуюся у меня книгу в формате djvu и даже уже засунул в неё ocr-слой. Теперь можно выделить участок страницы и скопировать текст оттуда. Однако я изначально хотел другого: как сделать, чтобы мохнатые нечитаемые буковки стали гладкими и блестящими?

Желательно Ъ-два_клика-way. Спасибо. Срач не нужен.

Ссылка

← Линукс на флэшке - что будет с флэшкой?

[пищеварение] Оракл продолжает акт дефекации →

А что за книга?

mirocumo
(08.02.10 22:35:34 MSK)

Ответ на: комментарий от mirocumo 08.02.10 22:35:34 MSK

> А что за книга?

да, не важно. Пусть будет «Дневник Мата Хари».

name_no ★★
(08.02.10 22:37:04 MSK) автор топика

Ссылка

Никак и это ненужно.

mclaudt ☆
(08.02.10 22:40:29 MSK)

Ответ на: комментарий от mclaudt 08.02.10 22:40:29 MSK

> Никак и это ненужно.

почему не нужно?

name_no ★★
(08.02.10 22:41:37 MSK) автор топика

Это картинка, брат. Отсканировано с малым разрешением.

~~ip1981~~ ☆☆
(08.02.10 22:41:40 MSK)

Ответ на: комментарий от ip1981 08.02.10 22:41:40 MSK

> Это картинка, брат. Отсканировано с малым разрешением.

вот я и думаю, может, есть способ отрисовать буквы заново - там же такой весь из себя формат, который умеет почти всё

name_no ★★
(08.02.10 22:43:28 MSK) автор топика

>Ъ-два_клика-way

Ъ не используют мышь.

jcd ★★★★★
(08.02.10 22:45:04 MSK)

Ссылка

Не специалист по djvu, но может просто удалить исходный слой? Или подставить пустоту туда..

~~vkos~~ ★★
(08.02.10 22:45:29 MSK)

Ссылка

Ответ на: комментарий от name_no 08.02.10 22:41:37 MSK

Задача djvu — сжать картинку с текстом.

OCR в дежавю нужен лишь для грубой индексации.

Желаемая «круглось» распознанных буковок обратится унылостью нераспознанных шмотков типа дробей, индексов и прочей внеASCII-шности.

Но это конечно если речь не идет об ГСМ-макулатуре без формул.

mclaudt ☆
(08.02.10 22:48:41 MSK)

Ответ на: комментарий от mclaudt 08.02.10 22:48:41 MSK

Спасибо, понятно. Видимо, лучшим вариантом было бы сделать fb2, но тогда придётся вычитывать, а это 1000 страниц %)

name_no ★★
(08.02.10 23:07:07 MSK) автор топика

Ответ на: комментарий от name_no 08.02.10 23:07:07 MSK

>Видимо, лучшим вариантом было бы сделать fb2

Так ты сам сканил? Тогда все претензии к своим «мохнатым» ручкам. Буквы ему мохнатые, панимаиш :)

Attila ★★
(08.02.10 23:27:16 MSK)

Ответ на: комментарий от mclaudt 08.02.10 22:48:41 MSK

так вроде современные распознавалки научились отделять plain текст от формул и картинок?

SuikaFromOuterSpace
(08.02.10 23:29:06 MSK)

Ответ на: комментарий от Attila 08.02.10 23:27:16 MSK

> Так ты сам сканил?

нет, у меня есть djvu, который на мой взгляд совершенно невозможно читать, но который кое-как разобрал finereader

name_no ★★
(08.02.10 23:36:36 MSK) автор топика

Ответ на: комментарий от SuikaFromOuterSpace 08.02.10 23:29:06 MSK

>>так вроде современные распознавалки научились отделять plain текст от формул и картинок?

Даже если это и так, в техническом тексте они всё равно пока бессильны — там всё вперемешку.

Вот разработают аналоговые нейросетевые сопроцессоры — тогда можно будет им поручать распознавать сразу в LaTeX.

mclaudt ☆
(08.02.10 23:36:51 MSK)

Переверстать. OCR-слой в djvu предназначен сугубо для поиска и копипасты, вывод его шрифтами не предусмотрен.

MadCAD ★★
(08.02.10 23:40:10 MSK)

Ссылка

Ответ на: комментарий от mclaudt 08.02.10 23:36:51 MSK

наверняка что то полуавтоматическое должно быть, чтоб система задавала вопросы в проблемных метстах и результат получался напоодобие работы latex2rtf

тогда можно будет им поручать распознавать сразу в LaTeX.

это уже не искуственный идиот, а искуственный разум получится.

SuikaFromOuterSpace
(08.02.10 23:42:52 MSK)

Ссылка

Ответ на: комментарий от ip1981 08.02.10 22:41:40 MSK

>Это картинка, брат. Отсканировано с малым разрешением.

Давным-давно при написании курсака или диплома я плохо отсканированные страницы с «лохматыми буквами» пропускал через спец фильтры в редакторах растровой графики, мохнатость убиралась и картинки хорошо распознавались в ocr...

BAN
(09.02.10 09:51:52 MSK)