LINUX.ORG.RU

утилитка (или либа) для поиска и замены частей КАРТИНКИ (например, для улучшения книжек в djvu)

 ,


1

2

желательно именно утилитка; возможо ограничение только черно-белой картинкой (хотя иногда желательно и grayscale — такие картинки получаются вращением невыровненной djvu); желательно не только точное сопоставление с образцом, но и возможность задать неточное (скажем, разрешается несовпадение не более чем k пикселов на границе)

пример использования: есть книжка в djvu, однако многие символы имеют неприятные «рваные» края (скажем, «]» имеет рваный правый край)

с помощью такой утилитки их можно заменить на ручками поправленные символы

да, написать ее несложно, но думаю что идея отнюдь не нова, так что должно быть что-то готовое

p.s. как бонус интересуют и другие утилитки в тему «исправляем книжки в djvu»

p.p.s. как вариант возможны автоматические сглаживатели края, но с хорошей настраиваемостью — и в целом, я в них не очень верю

Вы просите что-то невероятное. Поковыряйте системы OCR.
По теме могу только предложить: глаза + GIMP. Увы...

whiskydotjar ()
Ответ на: комментарий от whiskydotjar

я правильно понял, что GIMP умеет search & replace? как именно (какой плагин и т.п.)?

www_linux_org_ru ★★★★★ ()
Ответ на: комментарий от science

ScanTailor да, че-то там сглаживает на краях, и да — можно глянуть как конкретно он это делает

но я не очень в это верю — уж лучше search&replace на *ручками* растеризованные глифы

проблема вот в чем — просто так края сглаживать, даже адаптивно, сложно — скажем, у нас есть в тексте глифы «]», «|» и «[» — тогда даже небольшое сглаживание будет стремиться их *все* превратить в «|»

в то время как даже самым сильным сглаживанием испортить глиф «А» практически невозможно

www_linux_org_ru ★★★★★ ()
Последнее исправление: www_linux_org_ru (всего исправлений: 1 )
Ответ на: комментарий от whiskydotjar

OCR конечно правильная мысль, но боюсь что там уж очень все монструозно, в то время как написать простенькую прогу, которая вычисляет xor-расстояние (c блекджеком и шлюхами) до всех заданных глифов достаточно просто

www_linux_org_ru ★★★★★ ()

есть книжка в djvu, однако многие символы имеют неприятные «рваные» края (скажем, «]» имеет рваный правый край)

В нормальных djvu для символа одна и та же картинка должна использоваться, вот ее и нужно один раз поправить, а не все вставки этой картинки на всех страницах.

Распознавание картинок символов должно быть в софте, который из сканов делает нормальные djvu файлы.

kamre ★★★ ()
Ответ на: комментарий от science

я использовал сглаживание ScanTailor для печати — он либо все скругляет слишком сильно, либо остается некоторая лохматость — т.е. мой метод, хотя и несколько более трудоемок, приведет к существенно лучшим результатам

www_linux_org_ru ★★★★★ ()
Ответ на: комментарий от kamre

В нормальных djvu для символа одна и та же картинка должна использоваться

это не так, по крайней мере для .djvu получаемых со сканов на планете Земля Солнечной системы галактики Млечный Путь.

science ★★☆ ()
Ответ на: комментарий от kamre

В нормальных djvu для символа одна и та же картинка должна использоваться, вот ее и нужно один раз поправить, а не все вставки этой картинки на всех страницах.

это зависит от сжатия и качества отсканированного текста — т.е. так *далеко* не всегда (хотя да, то, что все сжато djvu, существенно уменьшает число глифов, про которые надо решить «какая они буква»)

btw, бывают еще говнодежавюшки, где страницы идут каждая со своим перекосом

www_linux_org_ru ★★★★★ ()
Ответ на: комментарий от kamre

Распознавание картинок символов должно быть в софте, который из сканов делает нормальные djvu файлы.

у меня возникала такая мысль, но подозреваю/емнип, что там более сложный кодер

www_linux_org_ru ★★★★★ ()
Ответ на: комментарий от www_linux_org_ru

В GIMP'е у вас не получится «search & replace».
Варианты такие:
1. Пишите плагин/утилиту на основе какой-нибудь OCR
2. Делаете всё руками и «пересобираете» djvu-файл
3. Покупаете печатный вариант / ищите более качественную электронную версию

whiskydotjar ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.