LINUX.ORG.RU

Выпуск minidjvu-mod 0.9m02

 


3

4

minidjvu-mod – это кодировщик текстового слоя для создания многостраничных DjVu документов (аналог cjb2 пакета DjVuLibre). Пожалуй, единственный свободный (GPL-3.0) кодировщик на данный момент, способный конкурировать по итоговому размеру файла с коммерческими проприетарными аналогами (documenttodjvum.exe от LizardTech).

minidjvu-mod является форком проекта minidjvu, разработанного Ильёй Межировым и Алексеем Крюковым в 2005-2010 гг. По сравнению с оригиналом, алгоритмы обработки переписаны с использованием битовых операций напрямую над монохромными изображениями, а также добавлена поддержка многопоточной обработки (OpenMP) общих словарей (djbz) документа. Полученный прирост в производительности позволил убрать некоторые эвристики и потратить дополнительные ресурсы на более полную оптимизацию общего словаря, от чего напрямую зависит качество сжатия итогового документа. В результате на современных многоядерных CPU minidjvu-mod уже не критично отстает по скорости работы от коммерческих аналогов, а также стал сравним по качеству сжатия результата.

В новой версии minidjvu-mod 0.9m02 также добавлена возможность передавать параметры кодирования документа через файл настроек. С его помощью можно дополнительно:

  • задавать индивидуальные параметры обработки конкретным изображениям;
  • контролировать, какие изображения попадут в тот или иной общий словарь (djbz);
  • задавать индивидуальные параметры кодирования общих словарей.

>>> Страница проекта на github



Проверено: xaizek ()

кодировщик текстового слоя для создания многостраничных DjVu документов

Можно подробнее, из чего куда он кодирует? DjVu — это же ведь формат для сканированных документов, правильно? Программа что, распознаёт сканы и делает из них текст?

hobbit ★★★★★ ()

А возможно ли данной программой модифицировать текстовый слой djvu-файла - например, убрать двойные newline, которые вставляет FineReader? Или перенести текстовый слой с PDF-файла в DjVu?

token_polyak ()
Последнее исправление: token_polyak (всего исправлений: 1)
Ответ на: комментарий от AVL2

прикольно. А я был уверен, что это свободный формат и под него давно уже есть все необходимое в отличном качестве…

Похожие темы
[Форум] [djvu][плач ярославны] Свободные форматы, да... Дайте нам спеки — мы все напишем, да... (2011)

К счастью для другого свободного формата - PDF - давно уже есть все необходимое в отличном качестве.

Кстати, был на хабре один человек, который делал утилиту для перепаковки слоев DjVu в PDF - помнит кто-нибудь? Вспомнил через какое-то время после того, как наткнулся, но уже не успел найти.

token_polyak ()
Последнее исправление: token_polyak (всего исправлений: 1)
Ответ на: комментарий от hobbit

Если верно помню, то особенности djvu это именно работа с изображением текста, он создаёт словарь букв и подставляет их в нужные места страницы. Из-за этого есть странные побочные эффекты, типа грамматически неверного написания слов. Притом выглядит так, как будто это ошибка есть в оригинале. Поэтому и сжатие достаточно сильное, по сравнению с pdf.

einhander ★★★★★ ()
Ответ на: комментарий от hobbit

Можно подробнее, из чего куда он кодирует? DjVu — это же ведь формат для сканированных документов, правильно? Программа что, распознаёт сканы и делает из них текст?

Не текст, а скорее алфавит изображений символов и «текст» из них.

Bundled DjVu документ состоит из страниц. Страницы содержат (опционально) 2 слоя: foreground - слой иллюстраций и изображений сжатых с помощью IW44 wavelet encoder (c44 из пакета DjVuLibre); и background - слой «текста». Слой текста представляет собой изображение формата JB2 (cjb2 из пакета DjVuLibre).

Кодировщик берет ч/б изображение с текстом (скан), режет его на изображения символов (по белому цвету отделяет). Далее из них выкидывается слишком мелкий мусор. Далее символы приемлемого размера сравниваются друг с другом и тем самым классифицируются по степени похожести на n классов. Далее для каждого класса выбирается его представитель (усредненное изображение обычно). Из всего этого формируется локальный словарь (Sjbz) и набор инструкций. Каждая инструкция выводит символ из локального словаря, либо просто символ (если он уникален и в словарь не попал), по заданным координатам. Т.о. отсканированному тексту по сути делают алфавит типовых изображений и этим алфавитом заново его набирают. Просмотрщик DjVu документа (напр. DjView4) рендерит JB2 изображение опираясь на локальный словарь (Sjbz) и набор инструкций к нему.

Очевидно, что можно взять несколько страниц, и сделать общий для них словарь (+ локальный для того, что встречается только на одной странице, но по нескольку раз). Это будет словарь Djbz, который по сути является локальным словарем виртуального JB2 изображением размера (0,0) и без инструкций. Т.о. при рендеринге страницы, если она использует общий словарь, то берется словарь Djbz, на который она ссылается, добавляется к нему её личный Sjbz словарь и читаются её инструкции по отрисовке, которые ссылаются на символы этого общего составного словаря по индексам.

(На самом деле все немножко сложнее, т.к. символ может быть закодирован с использованием «прототипа», т.е. представлять собой другой символ с примененной к нему маской. Ну, типа «В» и «Р» могут одно из другого выводится. И нужно оговориться, что DjVu опирается только на внешний вид символов при реконструкции исходной страницы. Т.е. А и А курсивом или другим шрифтом или другим размером шрифта - это будут разные entry в словаре.)

Так вот, штатный cjb2 кодировщик ч.б. изображений (скана) в jb2 слой из пакета DjVuLibre умеет работать только с 1 изображением за раз и делает только Sjbz. Djbz словари он делать не умеет.

А minidjvu-mod - аналог cjb2, который это умеет.

Truf ()
Последнее исправление: Truf (всего исправлений: 1)
Ответ на: комментарий от AVL2

А я был уверен, что это свободный формат и под него давно уже есть все необходимое в отличном качестве…

Кстати. По поводу того, чего еще нет в opensource для djvu - так это автоматического сегментатора. Как я упоминал в посте выше, ч.б. слои символов (текст) и иллюстрации (bw/grayscale/color) кодируются разными алгоритмами и утилитами пакета DjVuLibre (cjb2 и c44). А вот автоматической делилки исходного скана на изображение только с иллюстрациями и изображение только с текстом - в пакете DjVuLibre нет.

Truf ()
Ответ на: комментарий от einhander

Из-за этого есть странные побочные эффекты, типа грамматически неверного написания слов. Притом выглядит так, как будто это ошибка есть в оригинале. Поэтому и сжатие достаточно сильное, по сравнению с pdf.

Это так называемая проблема "инь". В старых книгах бывают буквы типа И или Н, с поврежденной или непропечатанной перемычкой. И кодировщик может их перепутать, отнести побитую И к классу Н и заменить усредненным, хорошим изображением Н. Или наоборот.

Но за этим бдят и современные кодировщики по дефолту имеют такой уровень «агрессии» при классификации, чтобы она не возникала.

Кстати, я смотрел только один opensource кодировщик в pdf: jbig2enc - и он делает в принципе то же самое. Т.е. в плане представления сканов текста в pdf очень на djvu похож. В DjVu сканы текста кодируется в JB2 изображения, в PDF - в JBIG2 изображения. Стандарты принципиально выросли из одного корня, а вот в реализациях кодировщиков pdf предпочитают более осторожные методы классификации. Т.е. в теории «проблему инь» можно и в PDF воспроизвести.

Truf ()
Ответ на: комментарий от token_polyak

DJVU очень местечковый формат. Вот и не пишут. Не находится заинтересованный специалист. По сути в нём нет никакого смысла, есть PDF, который покрывает все юз-кейсы DJVU.

Legioner ★★★★★ ()
Последнее исправление: Legioner (всего исправлений: 1)
Ответ на: комментарий от Legioner

Если вы зайдете на рутрекер, перейдете в раздел «Библиотеки (зеркала сетевых библиотек/коллекций)» и посмотрите на дампы, то увидите, что они в pdf. И весят по пол терабайта - запросто. И их сидирует 2 полных сида. И 20 личей, кому не лезет. Потому что, дорого - отдавать пол терабайта. А все наши библиотеки сканируют в pdf, ну как им кажется. Просто сканы, просто в pdf. Без обработки. Т.е. pdf тут выступает в роли контейнера - это набор jpeg или tiff изображений в 300-600 dpi с панетарного сканера, просто засунутый в pdf. Зачем? Не знаю. Также можно было бы в cbz положить - просто jpg файлы в zip архиве. Хотя, тогда не было бы интерактивного оглавления…

Это я к чему, вообще:

есть PDF, который покрывает все юз-кейсы DJVU

нет, не покрывает. Юз-кейсов то глобально - нет. Сейчас все просто хранят jpeg’и. Потому что, как я уже отмечал, PDF в плане хранения сканов очень похож на DJVU, но для этого нужно обрабатывать сканы, а не просто встраивать background слои. Они могли бы запихать эти слои в DjVu и получить точно такой же размер. IW44 кодирование и там и там одинаковое (имхо). Какая разница для хранения картинок: DjVu или PDF - мне кажется никакой. Просто, e-book книгоделы ведутся на популярность pdf viewer’ов среди пользователей Win, а сотрудникам библиотек вообще пофиг.

Т.о., с этой точки зрения, PDF также не нужен, как и DjVu. В плане сканированных книг - PDF не нужен точно так же как DjVu! Всё.. 2021 год же! Потому что их не обрабатывают. Ничего не нужно, нужна листалка jpeg’ов.

А вот если вы все таки начнете их обрабатывать - вы почувствуете разницу. Djvu может дать 15 мб, вместо 300мб у pdf, после обработки то. А может и 8мб… А вы попробуйте выковырять из торрент сетей файл в 8 мб. Он не умрет никогда, он хранится «на сдачу» как мелочь. У него будет не 2 сида, а 12 сидов и еще 20 неактивных.

Собственно поэтому DJVu формат в русскоязычном мире до сих пор и жив…
Это моё личное, оценочное, субъективное мнение.

Truf ()
Последнее исправление: Truf (всего исправлений: 2)

djvu – неудавшийся формат, давно заброшенный, ограниченный и бессмысленный. И только на просторах рунета какие-то неадекватные энтузиасты продолжают кодировать в него картинки текстов с целью сэкономить пару сотен килобайт на своих пятнадцатилетних хламных дисках. Им плевать, что за окном двадцать первый диск, что книжный формат должен индексироваться, иметь нормальную структуры метаданных, содержать оглавление, требуемую и разную нумерацию страниц, содержать графику и вектор разных форматов и так далее.

Очень жаль, что эти персонажи, типа автора этой ветки, тратят свое и чужое (пытаются) время на такое несостоявшееся и брошенное явление как djvu.

Успехов. Берегите свое время.

anonymous ()
Ответ на: комментарий от Truf

Склад русских торрентов это вообще не юз-кейс. Этими книгами со всего мира пользуется дай бог 1000 человек (это я так щедро накинул). Среди них 10 программистов и среди этих 10 программистов 0 хороших. Среди 0 хороших 0 заинтересованных в том, чтобы написать хорошую поддержку djvu и всё переконвертировать. Вот в принципе и весь сказ.

Такой технологией может заинтересоваться, например, Google Books. Или любая другая библиотека, которая оцифровывает и хранит книги. Но проблема в том, что по текущим законам это всё раздавать нельзя. Можно только давать читать в анально-огороженном веб-интерфейсе, где даже копировать можно только скриншотом. Поэтому вопроса экспорта тут не стоит. А с вопросом хранения каждый справляется по-своему.

А вообще, моё имхо - продуктивней просто как-то стандартизовать этот крутой формат хранения картинок (если он действительно такой крутой) и засунуть его поддержку в PDF, вот и всё. Какой смысл держать формат контейнера (DJVU) ради формата картинки, если есть более популярный формат контейнера (PDF), котому, очевидно, в целом плевать, что там внутри него лежит.

DJVU имел смысл в то время, когда с PDF ещё не было ничего понятно. Он по-моему не всегда был достаточно открытым. Но с тех пор прошло много времени, PDF открыт от начала и до конца, куча реализаций.

Legioner ★★★★★ ()
Последнее исправление: Legioner (всего исправлений: 1)
Ответ на: комментарий от Legioner

Но с тех пор прошло много времени, PDF открыт от начала и до конца, куча реализаций.

А реализации с степенью компрессии сравнимой с DjVu - нет… Потому что 2021 год!

Среди них 10 программистов и среди этих 10 программистов 0 хороших. Среди 0 хороших 0 заинтересованных в том, чтобы написать хорошую поддержку djvu и всё переконвертировать.

Наверное, pdf пользуется недостаточное кол-во программистов, чтобы раз и навсегда выбить djvu со сцены сканированных книг… Как считаете, во сколько раз их больше, чем программистов, пользующихся djvu? В 100? В 1000? Может дело не в кол-ве программистов? А может, это 2021 год?

P.S. Ну, я в целом предполагал срачь PDF vs DJVU, но серьезно? Ну, мелко, как то. Слабенько. Ну есть DjVu и есть. Если начнете сами сканировать книги и делать из них e-book’и - тогда вы все и так поймете. А до тих пор…

Truf ()
Ответ на: комментарий от Legioner

А вообще, моё имхо - продуктивней просто как-то стандартизовать этот крутой формат хранения картинок (если он действительно такой крутой) и засунуть его поддержку в PDF, вот и всё. Какой смысл держать формат контейнера (DJVU) ради формата картинки, если есть более популярный формат контейнера (PDF), котому, очевидно, в целом плевать, что там внутри него лежит.

Если под картинками имеются в виду иллюстрации - то это IW44. Одинаковый что там, что там. Если текст, то это - JBIG2 и JB2 - это в общем-то одно и тоже. PDF и DjVu - это плюс минус одно и тоже. PDF по функционалу сильно прокачен, DjVu по функционалу - его subset, замариновавшийся 10-15 лет назад. Но теперь у них разные ниши.

Я плохо разбираюсь в этом генезисе форматов, monday2000 писал лет сто назад статью Книгосканирование и формат PDF содержащую информацию о бекграунде их появления.

Truf ()
Ответ на: комментарий от anonymous

Ну, не предполагаются какие-либо отступления от формата djvu. Поэтому - всем, что умеет. Чаще всего - DjView или WinDjView на винде…
В смысле, проприетарный виндовый кодировщик то изначально кодирует с djbz словарями, ну и тут то же самое… Так что 100% совместимости.

Truf ()
Последнее исправление: Truf (всего исправлений: 2)
Ответ на: комментарий от Truf

Т.е. в плане представления сканов текста в pdf очень на djvu похож.

Зависит от кодировщика. Мне, допустим, подобные PDF не попадались. Зато через мои руки прошло много отвратных сканов, в которых за визуальное представление целиком отвечают картинки (порезанных на кусочки, нашинкованных в три слоя и пережатых до состояния мыла, но это так, к слову), а текстовый слой – невидимый (и распознанный как попало и неизвестно чем).

Bagrov ★★★★★ ()
Ответ на: комментарий от Bagrov

Тут разбираться надо, что за картинки и чем запакованы. DjVu прекрасно отобразит картинки, если знает что это - именно картинки. Соотв. - в картиночьем слое. Т.е. должен быть сегментатор отделяющий текст от картинок перед кодированием. Коммерческий djvu кодер винды его имеет, но он сделан как-то так, что, например, может закодировать ветви дерева в иллюстрации как текст, или надпись на лозунге «Родина мать зовет» в текст - что изначальное изображение конечно изуродует, т.к. текст рендерится поверх монохромным. Вот как-то так он работает, а в пакете DjVuLibre его просто нет.

Для борьбы с этим есть «метод раздельных сканов» и инструмент DjVu Imager. Отечественное ноу-хау.

Truf ()
Последнее исправление: Truf (всего исправлений: 4)
Ответ на: комментарий от overmind88

Не смог вспомнить, когда в последний раз мне попадалось что-то в djvu последние 5 лет минимум

Половина библиотеки в djvu (>500000 книг/журналов, примерно 1T на диске). Даже не представляю, сколько оно занимало бы в pdf.

anonymous ()
Ответ на: комментарий от anonymous

Половина библиотеки в djvu (>500000 книг/журналов, примерно 1T на диске). Даже не представляю, сколько оно занимало бы в pdf.

Господи, зачем 500000 книг журналов? В чем смысл? Тем более в формате, который не индексируется, не содержит метаданных, не имеет нормальных оглавлений? Полмиллиона множественных картинок…

Чувак, тебе к психиатру надо? Или уже поздно?

anonymous ()
Ответ на: комментарий от Legioner

Книги с текстом в формате джву занимают значительно меньше. Для библиотеки это настолько же важно, как жпег вместо пнг в Интернете.

BceM_IIpuBeT ★★★★☆ ()
Последнее исправление: BceM_IIpuBeT (всего исправлений: 1)
Ответ на: комментарий от kirill_rrr

Надо же, кто то ещё занимается оптимизацией, да ещё в свободном проекте

В то время как «прогрессивный» парни считают, что ничего оптимизировать не надо, 21 год же, памяти и процессоров как грязи да и вообще все надо впихнуть в браузер, в котором жс работает быстрее сей наивных)

pihter ★★★★ ()
Ответ на: комментарий от praseodim

Слово «библиотека» тебе ни о чем не говорит?

Нет, в данном случае не говорит, ибо:

Библиоте́ка (греч. βιβλίον «книга» + θήκη «хранилище») — учреждение, собирающее и осуществляющее хранение произведений печати и письменности для общественного пользования, а также ведущее справочно-библиографическую работу.

Чувак, накачавший в личное использование 500000 неиндексированных изображений книг, скорее всего просто имеет психические расстройства. Надеюсь бизобидные. Такие персонажи книги обычно не читают вообще, они их качают.

И сколько сможешь за свою жизнь прочитать из 500000 книг? Или хотя бы пролистать?

К дохтуру!

anonymous ()
Ответ на: комментарий от anonymous

Натянул сову на глобус. То что в новости люди пишут об оптимизации под многоядерные процессоры говорит об ориентации на 15летний хлам?

Та ладно, почитай дальнейшие сообщения восторженного дежавю автора ветки. Тем более, тот, кто оптимизирует создание djvu, явно не считает его хламом. А пишучи новость про изменение пару строчек в некоей программе, что никому кроме производителей файлов хламного формата неинтересно, пытается пропагандировать это гогно, которое даже его владельцы давно бросили. А приличные люди и раньше не использовали никогда.

Такие дела.

anonymous ()
Ответ на: комментарий от BceM_IIpuBeT

Книги с текстом в формате джву занимают значительно меньше. Для библиотеки это настолько же важно, как жпег вместо пнг в Интернете.

Хоспадя! Когда уже эти советские барахольщики повымирают? Помоги этим хламособирателям и мусорохранителям избавить мир от своего присутствия!

anonymous ()
Ответ на: комментарий от anonymous

Библиоте́ка (греч. βιβλίον «книга» + θήκη «хранилище») — учреждение, собирающее и осуществляющее хранение произведений печати и письменности для общественного пользования, а также ведущее справочно-библиографическую работу.

Библиотеки бывают общественными и частными.

Чувак, накачавший в личное использование 500000 неиндексированных изображений книг, скорее всего просто имеет психические расстройства. Надеюсь бизобидные. Такие персонажи книги обычно не читают вообще, они их качают.

Очень разумное поведение. Потому что сейчас эти книги есть, а завтра уже могут исчезнуть из сети. Прецеденты были. Копирастия и прочие разные законы и даже просто нежелание хостить.

И сколько сможешь за свою жизнь прочитать из 500000 книг? Или хотя бы пролистать?

Неважно сколько. Важно, что есть возможность это сделать при желании. Или дать тому, кому нужно стало.

praseodim ★★★★★ ()
Ответ на: комментарий от anonymous

Чем советские барахольщики хуже гугла? Гуглу однако ты вряд ли желаешь вымереть, хотя он и закрыл доступ к массиву отсканированной литературы. Впрочем не по своей вине, но тем не менее, вот уж собака на сене.

praseodim ★★★★★ ()
Ответ на: комментарий от anonymous

djvu - действительно брошенный формат, но в умелых руках он таки позволяет с сохранением высокого качества иметь файлы в несколько раз меньшие pdf. В случае большого количества книг это все-таки важно.

Текcтовый слой, он кстати, может содержать. Как и оглавление. Так что стоны на этот счет неоправданы. С метаинформацией похуже, но много ее видели в pdf?

praseodim ★★★★★ ()
Ответ на: комментарий от praseodim

Библиотеки бывают общественными и частными.

Вам придется привести ссылку на словарь или энциклопедию, где есть такое утверждение, чтобы я поверил. Ибо бред необразованного.

Очень разумное поведение. Потому что сейчас эти книги есть, а завтра уже могут исчезнуть из сети. Прецеденты были. Копирастия и прочие разные законы и даже просто нежелание хостить.

Поведение шизофреника. Кроме того, красть (воровать) плохо, ибо криминал. Но совки всегда поголовно были ворьем, так шо не удивительное заявление.

Неважно сколько. Важно, что есть возможность это сделать при желании. Или дать тому, кому нужно стало.

Таки шизофрения. Те части интернета, которое ваше правительство забанило, уже скачали? Неважно же о чем оно, главное, шобы было.

Успехов у дохтура!

anonymous ()
Ответ на: комментарий от praseodim

Чем советские барахольщики хуже гугла? Гуглу однако ты вряд ли желаешь вымереть, хотя он и закрыл доступ к массиву отсканированной литературы. Впрочем не по своей вине, но тем не менее, вот уж собака на сене.

Кто тебе, советскому страдальцу за пролетарскую справедливость еще мешает жить?

anonymous ()
Ответ на: комментарий от praseodim

djvu - действительно брошенный формат, но в умелых руках он таки позволяет с сохранением высокого качества иметь файлы в несколько раз меньшие pdf. В случае большого количества книг это все-таки важно.

Шоб ты всю жизнь имел доступ только к файлам в этом формате.

Текcтовый слой, он кстати, может содержать. Как и оглавление. Так что стоны на этот счет неоправданы. С метаинформацией похуже, но много ее видели в pdf?

В теории – да, но попробуй сделать оглавление в этом наборе картинок. Лично ручками. Тогда и свисти. В нормальном пдф метаданные всегда есть. Ибо тот, кто их не вставляет – не уважает ни себя, ни других. И не надеется на попадание своего творения никуда в приличное хранилище. И это касается не только метаданных.

Все, советский человек, бывай, не кашляй и не воруй. Больше на тебя у меня времени нету. Ибо противно.

anonymous ()
Ответ на: комментарий от anonymous

Вам придется привести ссылку на словарь или энциклопедию, где есть такое утверждение, чтобы я поверил.

Слова «частная библиотека» мог бы и сам погуглить.

Ча́стная библиоте́ка

Ибо бред необразованного.

У тебя зашкаливающая самоуверенность.

Поведение шизофреника. Кроме того, красть (воровать) плохо, ибо криминал. Но совки всегда поголовно были ворьем, так шо не удивительное заявление.

Пошло промывание мозгов. «Ворьё». Не ворье, а хранители знаний.

praseodim ★★★★★ ()
Ответ на: комментарий от anonymous

Кто тебе, советскому страдальцу за пролетарскую справедливость еще мешает жить?

Не, все же при всех недостатках, хотя бы теоретическая ориентированность на построение общества, основанного на справедливых и разумных началах - это самое ценное, что было в СССР. Раз даже спустя 30 лет так бомбит некоторых.

praseodim ★★★★★ ()
Ответ на: комментарий от anonymous

Шоб ты всю жизнь имел доступ только к файлам в этом формате.

Не вижу ничего плохого. Для просмотра ничем не хуже pdf, для редактирования готового они оба плохи.

В теории – да, но попробуй сделать оглавление в этом наборе картинок. Лично ручками. Тогда и свисти.

Делал.

djvused -e 'print-outline' filename.djvu > title.txt - вытащить оглавление (lisp-синтаксис).
djvused -s -e 'set-outline title.txt' filename.djvu - втащить оглавление (lisp-синтаксис)

Да, немного неудобно, но можно. А в чем-то даже и удобнее pdf.

В нормальном пдф метаданные всегда есть. Ибо тот, кто их не вставляет – не уважает ни себя, ни других. И не надеется на попадание своего творения никуда в приличное хранилище. И это касается не только метаданных.

Много ими пользовался? На практике их применение как-то так выходит ограниченным. Хотя бы потому что на один нормальный файл приходится с 10-к ненормальных.

Все, советский человек, бывай, не кашляй и не воруй. Больше на тебя у меня времени нету. Ибо противно.

Противно, что твоего снобизма не разделяю?

Вообще, я не так уж и держусь за djvu, все же его заброшенность привела на практике к трудностям с инструментарием и некоторых возможностей действительно не хватает. Но тем не менее, и смысла воротить нос не вижу.

praseodim ★★★★★ ()
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от annulen

Есть же didjvu, или имелось в виду что-то другое?

Оно. Соглашусь - я про него забыл. Потому что никак не могу его поставить. Автор didjvu гвоздями прибился к Python 2.x, а я на последней Kubuntu. Но мне показывали результат его работы - несколько не то, что нужно, на мой взгляд, оно делает. Но проверить - не могу. Фишка в том, что скан нужно по хорошему на 3, а не 2 слоя развалить: текст, картинки и всякая фигня (собственно бумага страницы, обычно желтая). И последнее - выкинуть из процесса кодирования вообще.

То что мне поляки показывали было с бумагой, точнее с пергаментом в слое иллюстраций… Но это был исторический документ и они сохраняли его look&feel, добавляя по-сути слой метаданных поверх. Это единственный пример работы didjvu, который я видел, поэтому ничего про него сказать не могу…

Truf ()
Последнее исправление: Truf (всего исправлений: 1)