Вот тут некоторые люди говорят, что, мол, обпеньсорс-сообщество может все, если бы не злобные копирасты/секреты/патенты, если бы не монополия Винды, то у нас бы уже все было замечательно и все бы на Линуксе сидели.
 
 Вот взялся я, сидя под Линуксом, изготавливать электронную книгу в открытом и свободном формате DjVu. Решил сделать хорошо, качественно: чтобы читалось хорошо, а объем оставался маленький, чтобы с оглавлением, с метаданными и с OCR-слоем, все как положено... 
 Что же я обнаруживаю?
 
 Я обнаруживаю, что такую книгу под Линуксом может сделать только заядлый мазохист. И то не факт, что получится хорошо.
 
 Посмотрим на все этапы.
 
 
 Сканирование и подготовка изображений
 Ну, хорошо, отсканировать везде можно. А вот с предварительной подготовкой изображений несколько хуже. Нет никакого ПО, которое помогло бы мне обработать документ с учетом особенностей алгоритма сжатия. Пришлось пользоваться старым добрым Imagemagick'ом и здравым смыслом.
 
 Ну хорошо, я, может, и воспользуюсь, но нельзя же ждать от любого, кто хочет отсканить книгу, что он будет рабираться с Imagemagick? Впрочем, это еще не самое плохое.
 
 Самое плохое — это результат. О нем в следующем параграфе.
 
 Сжатие в DjVu
 Ну хорошо, приходим к сжатию. Сжимаем при помощи DjVuLibre. О да, авторы написали, что оно работает «хуже проприетарных аналогов». Но кто ж знал, что «хуже» — это примерно в три раза хуже, чем у Lizardtech или Caminova?!
 
 Возможно, я накосячил при подготовке изображений. Но откуда же я знаю, как было надо, а?
 
 Да и потом, такую простую оптимизацию, как вынос общих для страниц элементов в разделяемые словари при сжатии JB2, а не копирование их в каждую страницу, DjVuLibre делать не умеет. Не говоря уже о том, чтобы сжимать не по одной странице, а потом тупо соединять, а просканировать сразу все и найти наиболее оптимальный набор общих элементов.
 
 Ну вот что за фигня такая, а? Библиотека открытых аналогов не имеет. Находится в разработке уже 10 лет, с 2001 года, а основана она на опубликованных исходниках AT&T и Lizardtech, так что первая версия даже называлась то ли 2.0, то ли еще выше номером была. И за все это время она все еще «хуже проприетарных аналогов». Ну почему она хуже? Умных людей, что ли, нету, чтобы сделать ее не хуже? Ну я понимаю, если программа, обрабатывающая проприетарные форматы была бы хуже, у нее объективные причины. Я понимаю, если бы у проприетарного аналога была огромная фора по времени, но тут если она и есть, то ведь не больше трех лет. А сжатие все еще хуже в 3-4 раза. Это как можно в музее злопыхателей опенсорса поставить: «Мы открытые, поэтому мы дерьмо».
 
 OCR-слой
 Вот тут я узнал, что такое ад.
 
 Мне хотелось сделать, вычитать и выровнять вручную OCR-слой. Единственная программа под Линуксом, которая позволила мне это сделать — кривой и косой djvusmooth. А самое интересное, что такой функции не было даже в проприетарном редакторе от Caminova. Только в djvusmooth. Который был с сюрпризом. Сюрприз был в том, что он не умеет добавлять и удалять элементы, только модифицировать.
 
 Мне пришлось делать самописные скрипты, которые выделяют текст при помощи djvused, перегоняют его в удобочитаемый формат, позволяют отредактировать, потом накладывают на документ обратно. А потом подравнивать с помощью djvusmooth. Который зависает, если слишком быстро передвигаться по элементам (например, курсором).
 
 Я вот сейчас этим занимаюсь, сижу и пла́чу.
 
 Не говоря уже о том, что нормального OCR'а под Линукс тоже нет.
 
 
 Возможно, стоило сначала перегнать в PDF, а потом через pdf2djvu. Но это бы не решило многих проблем. Пусть уж остается, как есть.
 
 
 А люди говорят: «Выдайте нам спеки видеокарты, мы сами все 3D напишем!». Ага, щас. Напишут.
 
 
 Может быть, у меня кривые руки. Не исключаю. Но что ж, мне для таких простых операций нужно изучить структуру формата, ознакомиться с алгоритмами сжатия и еще прочитать код djvulibre? Доколе еще, Катилина, мы будем вот так все делать?
 
 
 А Okular имеет критические баги в обработке текстового слоя DjVu, которые висят открытые в багтрекере еще с 2010-го года. 
 
 Ну вот почему у нас все так плохо?
             ←
    1
        2
        3
        4
        →
    
    
      Ответ на:
      
          комментарий
        от drull 
  
    
      Ответ на:
      
          комментарий
        от Quasar 
  
    
      Ответ на:
      
          комментарий
        от drull 
  
    
      Ответ на:
      
          комментарий
        от Siado 
  
    
      Ответ на:
      
          комментарий
        от Nebuchadnezzar 
  
    
      Ответ на:
      
          комментарий
        от ooobooontooo 
  
    
      Ответ на:
      
          комментарий
        от Igron 
  
    
      Ответ на:
      
          комментарий
        от ooobooontooo 
  
    
      Ответ на:
      
          комментарий
        от Igron 
  
    
      Ответ на:
      
          комментарий
        от Quasar 
  
    
      Ответ на:
      
          комментарий
        от baverman 
  
    
      Ответ на:
      
          комментарий
        от Igron 
  
    
      Ответ на:
      
          комментарий
        от baverman 
  

    
      Ответ на:
      
          комментарий
        от Igron 
  

    
      Ответ на:
      
          комментарий
        от baverman 
  
    
      Ответ на:
      
          комментарий
        от Vovka-Korovka 
  
    
      Ответ на:
      
          комментарий
        от Nebuchadnezzar 
  
    
      Ответ на:
      
          комментарий
        от Igron 
  
    
      Ответ на:
      
          комментарий
        от Deleted 
  
    
      Ответ на:
      
          комментарий
        от metar 
  
    
      Ответ на:
      
          комментарий
        от stevejobs 
  

    
      Ответ на:
      
          комментарий
        от massimus 
  

    
      Ответ на:
      
          комментарий
        от massimus 
  
    
      Ответ на:
      
          комментарий
        от metar 
  
    
      Ответ на:
      
          комментарий
        от baverman 
  
    
      Ответ на:
      
          комментарий
        от massimus 
  


    
      Ответ на:
      
          комментарий
        от baverman 
  


    
      Ответ на:
      
          комментарий
        от Nebuchadnezzar 
  
    
      Ответ на:
      
          комментарий
        от massimus 
  
    
      Ответ на:
      
          комментарий
        от massimus 
  
    
      Ответ на:
      
          комментарий
        от baverman 
  
    
      Ответ на:
      
          комментарий
        от proud_anon 
  
    
      Ответ на:
      
          комментарий
        от massimus 
  
    
      Ответ на:
      
          комментарий
        от Legioner 
  
    
      Ответ на:
      
          комментарий
        от massimus 
  
    
      Ответ на:
      
          комментарий
        от proud_anon 
  
    
      Ответ на:
      
          комментарий
        от stevejobs 
  
    
      Ответ на:
      
          комментарий
        от KRoN73 
  
    
      Ответ на:
      
          комментарий
        от kernel 
  
    
      Ответ на:
      
          комментарий
        от Quasar 
  
    
      Ответ на:
      
          комментарий
        от DNA_Seq 
  
    
        Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
      
  Похожие темы
- Новости DjVuLibre 3.5.24 и DjView4 4.7 (2011)
- Новости Выпуск minidjvu-mod 0.9m02 (2021)
- Форум Плач Ярославны про работу с госами (2013)
- Форум [ЖЖ][Плач Ярославны] Метасити и фулскрин (2008)
- Форум Чем почитать DJVU формат? (2006)
- Форум спеки на формат .store файлов (2013)
- Форум Плачь Ярославны или Яндекс жалуется в ФАC на Гугл. (2015)
- Форум Сканирование книг в формат DJVU (2003)
- Форум Прозрачный фон документов в djvu формате (2007)
- Форум [плач ярославны][кедосрач][малый гномовброс] Трудно мне понять жителей планеты Вулкан... (2012)