Выпуск minidjvu-mod 0.9m02

4

4

minidjvu-mod – это кодировщик текстового слоя для создания многостраничных DjVu документов (аналог cjb2 пакета DjVuLibre). Пожалуй, единственный свободный (GPL-3.0) кодировщик на данный момент, способный конкурировать по итоговому размеру файла с коммерческими проприетарными аналогами (documenttodjvum.exe от LizardTech).

minidjvu-mod является форком проекта minidjvu, разработанного Ильёй Межировым и Алексеем Крюковым в 2005-2010 гг. По сравнению с оригиналом, алгоритмы обработки переписаны с использованием битовых операций напрямую над монохромными изображениями, а также добавлена поддержка многопоточной обработки (OpenMP) общих словарей (djbz) документа. Полученный прирост в производительности позволил убрать некоторые эвристики и потратить дополнительные ресурсы на более полную оптимизацию общего словаря, от чего напрямую зависит качество сжатия итогового документа. В результате на современных многоядерных CPU minidjvu-mod уже не критично отстает по скорости работы от коммерческих аналогов, а также стал сравним по качеству сжатия результата.

В новой версии minidjvu-mod 0.9m02 также добавлена возможность передавать параметры кодирования документа через файл настроек. С его помощью можно дополнительно:

задавать индивидуальные параметры обработки конкретным изображениям;
контролировать, какие изображения попадут в тот или иной общий словарь (djbz);
задавать индивидуальные параметры кодирования общих словарей.

>>> Страница проекта на github

Ссылка

← Крупнейший российский холдинг отказался от ПО IBM и Microsoft

Выпуск Qmmp 2.0.0 →

← 1 2 3 →

Ответ на: комментарий от anonymous 18.07.21 12:59:57 MSK

В нормальном пдф метаданные всегда есть. Ибо тот, кто их не вставляет – не уважает ни себя, ни других. И не надеется на попадание своего творения никуда в приличное хранилище. И это касается не только метаданных.

И кстати, не помню почему я метаданные в djvu не использовал и не помню о них =)

Сейчас нашел инфу, что они есть и причем такие же как в pdf http://www.djvu-scan.ru/forum/index.php?topic=37.30 Но как видно из обсуждения, с метаданными слишком много проблем.

praseodim ★★★★★
(18.07.21 13:36:04 MSK)

Субминорщина — в пиконовости.

t184256 ★★★★★
(18.07.21 13:36:54 MSK)

Ссылка

Ответ на: комментарий от praseodim 18.07.21 13:36:04 MSK

Да нет там никаких проблем с запихиванием метаданных. Вставляются djvused так же как оглавление - командой set-meta из файла в формате key = value. Можно глобальные, можно на конкретную страницу. Можно в XMP формате запихать. DjView их отображает по Ctrl+M. Считываются тем же djvused.

Truf ★
(18.07.21 13:46:36 MSK) автор топика

Ответ на: комментарий от overmind88 18.07.21 00:17:16 MSK

У меня где-то 95% книг в djvu, статьи 99% в pdf. Когда источник электронный то pdf, если бумажный то djvu.

einhander ★★★★★
(18.07.21 13:53:27 MSK)

Ссылка

Ответ на: комментарий от Truf 17.07.21 16:26:00 MSK

Может подскажешь как из djvu сделать pdf с таким же размером файла. А то иногда нужны фишки именно pdf в виде выделения текста и заметок. А то делать из 30мб djvu 300мб pdf считаю излишеством.

einhander ★★★★★
(18.07.21 13:58:56 MSK)

Ответ на: комментарий от einhander 18.07.21 13:58:56 MSK

Тут только OCR - такой софт весьма не дешёвый.

ados ★★★★★
(18.07.21 14:06:46 MSK)
Последнее исправление: ados 18.07.21 14:13:01 MSK (всего исправлений: 1)

Ответ на: комментарий от einhander 18.07.21 13:58:56 MSK

Вот это - хороший вопрос. Я конвертерами не занимался, возможно такие и есть. Но на вскидку все выглядит так, что они работают максимально тупым образом - DjVu рендерится в картинку, и картинка заново кодируется в PDF его кодерами. Или наоборот. Естественно, все преимущества DjVu при такой конверсии потеряются. И это при том, что форматы похожи и можно уже готовые словари и инструкции перевести из одного формата в другой.

Возможно, такой конвертер и есть, но я просто не в курсе. А если нет, то возможно я его когда-нибудь его напишу, если руки дойдут. Мысль такая по кр мере возникала.

Truf ★
(18.07.21 14:19:35 MSK) автор топика
Последнее исправление: Truf 18.07.21 14:22:15 MSK (всего исправлений: 1)

Ответ на: комментарий от Truf 18.07.21 13:46:36 MSK

Спасибо. Значит просто я что-то тормозил, когда делал вещи в этом формате.

Одним аргументом против djvu меньше.

praseodim ★★★★★
(18.07.21 14:20:04 MSK)

Ссылка

Полезная работа!

Эх, сколько в 1990-е и 2000-е было выкинуто на помойку (буквально!!) внутренних журналов многих НИИ с тиражом до 20 экз. с массой эксперименальных данных, которые не на одну нобелевку потянут (она-то сама при Союзе не котировалась). Копий и в Ленинке нет. Где теперь все эти данные взять? Нигде! Заново деньги вкладывать и эксперименты по материаловедению проводить? Капиталисты этого не будут делать ни за что, им перспектива не нужна, им нужны только «бабло» здесь и сейчас.

В основном эти журналы выкидывали, чтобы отдать помещения под аренду частным «рогам и копытам», которых уже и в помине нет.

Вот эти бы журналы оцифровать тогда было бы здорово. Но никого не нашлось, ни чтобы сохранить хотя бы по 1 бумажному экземпляру (а для этого действительно много места нужно), ни тем более оцифровать (места гораздо меньше нужно).

Ну, спецам из НИИ всё-таки жалко было выкидывать, они журналы скинули на городскую библиотечную сеть. А те говорят: «Ещё месяц и если никто так и не будет приходить и читать, то выкинем на помойку и отдадим стелажи под билетристику, её читают». Мне и то получилось случайно узнать, что такие журналы доступны. А другим-то откуда узнать об этом? Я посмотрел несколько: там действительно всё было кратко сухо и по делу, никакой «воды», формулы, обоснования, экспериментальные данные - всё есть. (Правда я тогда занимался совсем другой тематикой, и тоже не брал читать.) Ооочень жаль.

Тут неумные люди говорили, что этот хлам никому не нужен. Это не так. Не бывает ненужных данных, просто не все умеют их правильно использовать. При поиске решения проблем, никогда не знаешь заранее какие из них дадут наиболее правильный и эффективный (в том числе и экономически) путь.

Да, История только и делает, что никого ничему не учит. Сколько государств исчезло только потому, что наплевательски относились к сохранению научных и прикладных данных. Фактически, те люди, кто занимаются сохранением данных в частном порядке, берут на себя роль сохранения той цивилизации, которую они представляют. Пятикантропам-приживалам это конечно не нужно, им нужно только «зашибись» и «здесь и сейчас».

ТС: Спасибо за работу!

anonymous
(18.07.21 14:40:24 MSK)

Ссылка

Ответ на: комментарий от ados 18.07.21 14:06:46 MSK

Если в djvu есть текстовый слой, то OCR не нужен.

Если OCR нужен, то он никак не «недешёвый» - передовые решения как раз свободные.

token_polyak ★★★★★
(18.07.21 14:46:16 MSK)

Ответ на: комментарий от token_polyak 18.07.21 14:46:16 MSK

Это какие такие передовые свободные решения в OCR?

ados ★★★★★
(18.07.21 14:49:44 MSK)

Ответ на: комментарий от ados 18.07.21 14:49:44 MSK

Tesseract и Calamari. Серъезные учреждения (Staatsbibliothek Berlin, например) пользуются именно ими.

token_polyak ★★★★★
(18.07.21 14:50:53 MSK)
Последнее исправление: token_polyak 18.07.21 15:04:10 MSK (всего исправлений: 3)

Ответ на: комментарий от token_polyak 18.07.21 14:46:16 MSK

«Текстовый слой» в djvu есть, но OCR - нужен. DjVu умеет вставлять в себя аннотации в формате hOCR (после конвертации через hocr2djvused). Т.е. также как символы рендерятся по координатам, по тем же координатам может быть присвоена распознанная OCR буква. DjView4 даже позволяет такой текст выделять и копировать. Но просто так набить поверх djvu документа текстовый слой - таких инструментов нет, имхо. Я глубоко не копал, но там все должно быть не просто с пробелами и строками - все по-сути в воздухе по координатам висит.
Я лично для вставки текстового слоя (OCR с ошибками) пользуюсь последним tesseract, вот таким скриптом и утилитой hocr2djvused из проекта ocr2djvu.

Truf ★
(18.07.21 15:21:55 MSK) автор топика

Ответ на: комментарий от Truf 18.07.21 15:21:55 MSK

Вопрос был про конвертацию DjVu в PDF. НЯЗ в таком случае, если в файле DjVu присутствует текстовый слой - не надо повторно OCRить.

Собственно, это и позволяла сделать утилита, которую упоминал выше.

token_polyak ★★★★★
(18.07.21 15:49:09 MSK)
Последнее исправление: token_polyak 18.07.21 15:54:19 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ados 18.07.21 14:06:46 MSK

Ну djvu у меня в большей степени распознаны, это все равно не то, форматирование формулы, графики при ocr теряются.

einhander ★★★★★
(18.07.21 17:24:57 MSK)

Ссылка

Для тех, кому «цикаво», вся «соль» minidjvu была в том, что попарный матчинг букв, с целью найти одинаковые выполнялся не с масками букв, а с скелетами букв. Это была курсовая работа с результатом в виде minidjvu и потом патча к djvulibre.

В результате бездумного применения этой идеи djvu-шки созданные энтузиастами максимального сжатия не только изобилуют проблемами «инь» но и зачастую буковки вдоль базовой линии сильно скачут, тоесть сканы оказались испорченными в погоне за «сжатием», и в этих ваших интернетах бывает так, что остались только такие вот результаты работы minidjvu.

По сравнению с оригиналом, алгоритмы обработки переписаны с использованием битовых операций напрямую над монохромными изображениями.

Исходя из вышесказанного непонятно зачем оптимизировать кодировщик, который уродует результат.

Есть достойный инструмент, в опенсорсе - jbig2enc (https://github.com/agl/jbig2enc), который делает pdf-ки с размером соизмеримым с djvu. Для кодирования только что отсканированных монохромных страниц я предпочту его, а не djvu-зоопарк.

MRC-pdf (mixed raster content) тоже можно легко создавать, djvu использует тот же принцип, только другие кодировщики слоев foreground/background iw44(djvu) – jpeg,jpeg2000(pdf), text mask jb2(djvu) – jbig2(pdf), и другой способ записи потока байтов на диск.

PDF точно также может иметь общий словарь символов на несколько страниц.

nikitos ★★★
(18.07.21 17:37:40 MSK)

Ответ на: комментарий от nikitos 18.07.21 17:37:40 MSK

MRC-pdf (mixed raster content) тоже можно легко создавать

А чем, если не секрет? Мне такие энкодеры не попадались, если есть такой опенсорсный, то это было бы аргументом против djvu

annulen ★★★★★
(18.07.21 18:42:31 MSK)

Ответ на: комментарий от nikitos 18.07.21 17:37:40 MSK

вся «соль» minidjvu была в том, что попарный матчинг букв, с целью найти одинаковые выполнялся не с масками букв, а с скелетами букв.

На сколько я понимаю - это не так. Емнип там 4 метода сравнения, один из которых (последний?) действительно ищет скелеты букв, но для того, чтобы все кроме скелета залить градиентом серого. Т.е. он из ч.б. буквы делает её grayscale с увеличением интенсивности цвета к скелету. И при сравнении учитывает этот grayscale тем самым более толерантно относясь к несовпадению пикселей по краям буквы, по сравнению с тем что ближе к скелету.

В результате бездумного применения этой идеи djvu-шки созданные энтузиастами максимального сжатия не только изобилуют проблемами «инь» но и зачастую буковки вдоль базовой линии сильно скачут, тоесть сканы оказались испорченными в погоне за «сжатием», и в этих ваших интернетах бывает так, что остались только такие вот результаты работы minidjvu.

Вот если бы вы меня попросили показать djvu книгу, созданную minidjvu - я бы не смог ее показать. Я не знаю ни одной! Где вы нашли сделанные minidjvu книги?

созданные энтузиастами максимального сжатия

Открою вам секрет, энтузиасты максимального сжатия до сего момента minidjvu не использовали вообще, т.к. они использовали ПРОПРИЕТАРНЫЙ ВИНДОВЫЙ documenttodjvum.exe от LizardTech. Даже через Wine. И я тоже ))

зачастую буковки вдоль базовой линии сильно скачут

Если вы мне пришлете пример такого скана (в issue на github), чтобы я мог воспроизвести проблему - я вам буду благодарен. Но возможно вы путаете эту проблему с другой.. попробуйте опцию -a.

Есть достойный инструмент, в опенсорсе - jbig2enc

Я ковырял jbig2enc - мне было интересно, какие методы они используют для классификации и составления словарей. Я сильно сомневаюсь, что он может дать сравнимый с djvu результат. На вскидку я уже не помню, но если бы это имело место - я бы запомнил.

Truf ★
(18.07.21 18:54:48 MSK) автор топика
Последнее исправление: Truf 18.07.21 18:56:21 MSK (всего исправлений: 1)

Ответ на: комментарий от Truf 18.07.21 15:21:55 MSK

Я лично для вставки текстового слоя (OCR с ошибками) пользуюсь последним tesseract, вот таким скриптом и утилитой hocr2djvused из проекта ocr2djvu.

Я все же Finereader для этой цели использую. Он с 11-й версии позволяет сохранять результат в djvu. К сожалению, кроме текстового слоя качество этого djvu посредственное.

Поэтому извлекаю слой из файнридеровского djvu

djvused finereader.djvu -e 'output-all' > text.dsed

Затем после небольшой правки импортирую в хороший djvu

djvused good.djvu -f text.dsed -s

Править приходится названия страниц. Finereader их делает в виде page#### так что или надо обрабатывать *.dsed или исходные файлы.

praseodim ★★★★★
(18.07.21 19:02:58 MSK)

Ссылка

Ответ на: комментарий от annulen 18.07.21 18:42:31 MSK

А чем, если не секрет? Мне такие энкодеры не попадались, если есть такой опенсорсный, то это было бы аргументом против djvu.

Опенсорсного наверно нету. Я писал свой за деньги, для pdfxchange editor, сотрудничал с ними по теме сжатия pdf-ок, вот им и пользуюсь.

Основную идею по созданию маски взял из scantailor-а, так как тогда казалось, что сложнее всего найти на изображении документов область фотографических картинок, но теперь это мне кажется не таким же и сложным, несколько морфологических фильтров над серой и/или монохромной картинкой. А выигрыш в сжатии получается в-основном в том что слои кроме параметров кодека сжатия можно еще и уменьшить, то есть оригинальный пиксельный размер имеет только битональная маска, а foreground и background - уменьшенные, background раза в 4, foreground раза в 2-3. И потом читаем спецификацию pdf, можно любую, начиная от версии 1.4 в разделе про SMASK и кодируем каждый слой своим алгоритмом со своими параметрами сжатия. Может даже на libharu теперь можно это все реализовать.

Из других программ, которые умеют создавать MRC-pdf: файнридер, китайские бесплатные но несвободные программки djvutoy и pdftoy (http://www.gratilog.net/xoops/modules/mydownloads/singlefile.php?cid=62&lid=2796).

nikitos ★★★
(18.07.21 19:58:08 MSK)

Ответ на: комментарий от Truf 18.07.21 18:54:48 MSK

Вот если бы вы меня попросили показать djvu книгу, созданную minidjvu - я бы не смог ее показать. Я не знаю ни одной! Где вы нашли сделанные minidjvu книги?

Такие книги мне попадались в разделе литературы на chipmaker.ru, на libgen, на сайтиках-форумах moonday2000 (http://www.djvu-soft.narod.ru/soft/) еще где-то итд.

Сейчас народ образованный, старается сканировать и сжимать правильно, но раньше, лет 10-15 назад все спешили «выложить скан», а не заморачиваться с качеством. Как только этот minidjvu появился, энтузиасты бросились его использовать.

Я посмотрю по своим компьютерам и дискам с книгами, и как найду такую djvu-шку обязательно создам вам issue.

Я ковырял jbig2enc - мне было интересно, какие методы они используют для классификации и составления словарей.

Ковырять надо не его, а библиотеку, которую он использует: leptonica, конкретно про jbig2 расписано тут: http://www.leptonica.org/jbig2.html

nikitos ★★★
(18.07.21 20:08:16 MSK)

Ответ на: комментарий от nikitos 18.07.21 20:08:16 MSK

как найду такую djvu-шку обязательно создам вам issue.

Мне не djvu-шка поможет, а скан, который после обработки minidjvu (а лучше minidjvu-mod) будет выдавать кривую djvu-шку.

Truf ★
(18.07.21 20:14:38 MSK) автор топика

Ссылка

Ответ на: комментарий от Truf 17.07.21 16:02:39 MSK

Первый раз читаю внятное объяснение структуры djvu. Спасибо. В моей библиотеке довольно много книг в этом формате. До сих пор не могу найти читалку djvu с возиожностью вставки коментариев, под линкусом. Не подскажете? Для pdf до фига, я сам пользуюсь master pdf editor и foxitreader для линукса. А вот для djvu так и не нашел. Поэтому стараюсь скачивать в формате pdf.

rustamych ★★★★
(18.07.21 22:43:06 MSK)

Ответ на: комментарий от anonymous 18.07.21 12:30:23 MSK

И сколько сможешь за свою жизнь прочитать из 500000 книг? Или хотя бы пролистать?

Чукча не читатель... А если серьезно, в данном случае важен сам факт возможности прочитать. Предположим читаете вы книгу B1 автора A1, в ней есть упоминание книги B2 автора A2, вам становиться интересно и у вас уже есть эта книга. В данном случае создание личной библиотеки в электронном виде отличается от частных библиотек на бумаге только кол-вом произведений.

anc ★★★★★
(19.07.21 09:05:07 MSK)

Ссылка

Ответ на: комментарий от rustamych 18.07.21 22:43:06 MSK

Под Линуксом таких GUI приложений, наверное, нет. Потому что все они, имхо, вырастают из DjView, а DjView такую функцию не реализовал.

Тем не менее, поддержка комментариев в формате DjVu есть (не такая изощренная как в PDF, конечно). В терминах документации DjVu комментарии - это один из видов аннотаций (annotation). Их можно назначить djvu файлу для выбранной страницы документа через программу djvused: djvused -s -e "select 1; set-ant myannotations.txt" mydoc.djvu. Где myannotations.txt содержит: (maparea "" "Комментарий 1" (text 380 3350 600 200 ) (pushpin) ). Все хитрые опции формата аннотаций описаны в man djvused/Annotation syntax/maparea.

Truf ★
(19.07.21 13:36:05 MSK) автор топика

Ответ на: комментарий от rustamych 18.07.21 22:43:06 MSK

До сих пор не могу найти читалку djvu с возиожностью вставки коментариев, под линкусом. Не подскажете?

Okular умеет (если нет аллергии на Qt). Правда, он создаёт новый файл с расширением <имя книги>.okular и упаковывает в него книгу и свои добавки.

dataman ★★★★★
(19.07.21 14:48:43 MSK)

Ответ на: комментарий от dataman 19.07.21 14:48:43 MSK

Про окуляр я знаю. Это, согласитесь, дико неудобно. Я нашел что то работающее виндовое под wine, но тоже неудобно. В итоге я стал скачивать только в пдф. У меня не 500 тыщь томов, а всего 500. Поэтому небольшое увеличение размера роли особой не играет.

rustamych ★★★★
(19.07.21 15:43:32 MSK)

Ссылка

Ответ на: комментарий от Truf 19.07.21 13:36:05 MSK

Такой способ через выхлопную трубу :) конечно не удобен. Должно быть что-нить как в пдф - вижу страницу и сразу туда пишу. Причем под виндой я такое видел и не раз, и даже запустил под вайном, но работать постоянно под вайном это тоже то еще удовольствие. Непонятно почему под виндой есть, а под линухом нету?

rustamych ★★★★
(19.07.21 15:50:36 MSK)

Ответ на: комментарий от rustamych 19.07.21 15:50:36 MSK

Hi, I’m reading this forum with Google Translate and like the effort the author has spent.

I myself have spent some time last weeks looking at the efforts of Radim Hatlapatka of introducing OCR into JBIG2Enc to improve scanning-compression factor into PDF’s.

However his approach was not to improve the quality of the compression result, but to improve the compression-factor.

Adding images into JBIG2Enc from a scanned PDF with a lot of small TIFF’s in his solution is not done in a way that parts of text come together to form complete words. OCR is only done on letters or lettercombinations instead of on full words, so the thrustworthyness of a complete word found by Tesseract isn’t taken into account rating the JBIG2-change.

Therefore I was looking for some program that is segmenting the layout as DjVu promised, to only prepare the text in the scan so Tesseract can read it. When trying GScan2Pdf saving to DjVu I saw that bitonal content wasn’t recognized by that solution. Downloading an ancient DjVu Solo 3.1 on Windows did the trick with a remarkable small result. Looking further a possible source I found your solution.

I agree that this segmentation could be transferred to a PDF/JBIG2/JPEG solution with a multipage dictionary with probably somewhat less results as IW44 and BG44, as well as JB2 are somehow more efficient than their PDF counterparts JPG(2000) and JBIG2 for what I’ve read.

Robert

rmast
(20.07.21 04:01:52 MSK)

Ответ на: комментарий от rmast 20.07.21 04:01:52 MSK

Hi, Robert!

I’m not 100% sure what you’re trying to achieve.. As for DjVu Solo 3.1 - I suppose it’s based on documenttodjvum.exe encoder by LizardTech. If you need more portable solution based on the same encoder you may try «DjVu Small» or «DjVu Small Mod». They are working fine under Wine.

If you need a tool that may extract a text layer from the scan, you might take a look into Scan Tailor, especially its forks: Scan Tailor Advanced and Scan Tailor Universal (the last is maintained by me and soon will get a feature to generate DjVu with help of minidjvu-mod). They contain a lot of tools to automatically or manually edit the scanned images, and may export resulting text layer into b/w image. So they may be treated as semiautomatic scan segmentators. ScanTailor also have a console version (scantailor-cli) with a subset of functionality that may come in handy. (although I don’t remember if it supports exporting of layers).

Also you may find interesting a tool that I wrote down a long time ago: djvudict. It’s able to dump Djbz or Sjbz dictionaries from DjVu document into a set of bmp images and gather a simple statistics of dictionary usage. It may be adjusted to dump a lot of staff from djvu document.

Truf ★
(20.07.21 13:47:57 MSK) автор топика

Ссылка

Ответ на: комментарий от token_polyak 18.07.21 14:50:53 MSK

Tesseract и Calamari. Серъезные учреждения (Staatsbibliothek Berlin, например) пользуются именно ими.

В качестве эталона – FineReader.

про Calamari не знаю – не пользовал. Tesseract – при идеальном скане он дает вполне неплохой результат. Но на реальных сканах он просто сасёт с прихлюпыванием у FineReader. Как бы мне ни хотелось обратного….

anonymous
(20.07.21 14:13:06 MSK)

Ответ на: комментарий от rmast 20.07.21 04:01:52 MSK

Hi, I think your questions are more suitable for Truf. I'm a user only and would like to get the program under Linux to make notes in djvu file.

rustamych ★★★★
(20.07.21 19:08:17 MSK)

Ссылка

Ответ на: комментарий от nikitos 18.07.21 19:58:08 MSK

Из других программ, которые умеют создавать MRC-pdf: файнридер, китайские бесплатные но несвободные программки djvutoy и pdftoy (http://www.gratilog.net/xoops/modules/mydownloads/singlefile.php?cid=62&lid=2796).

Спасибо за ссылку, забавный набор программ. Спасибо.

anonymous
(20.07.21 20:20:09 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.07.21 14:13:06 MSK

В качестве эталона – FineReader.

О, специалисты с рутракеры и от зверьсиди подтянулись. Пиши есче, братишка. Нам тебя так не фатало.

anonymous
(20.07.21 20:21:59 MSK)

Ответ на: комментарий от token_polyak 18.07.21 14:50:53 MSK

Есть ещё OCR модуль для pdfxchange viewer. Работает раза в три быстрее чем tesseract.

einhander ★★★★★
(20.07.21 20:39:16 MSK)

Ответ на: комментарий от einhander 20.07.21 20:39:16 MSK

Есть ещё OCR модуль для pdfxchange viewer. Работает раза в три быстрее чем tesseract.

Как там раньше говорили: на винфак, быдло! И убегающему быдлу в спину: там именно тессеракт, который работает в три раза быстрее тессеракта, ага.

anonymous
(20.07.21 20:49:15 MSK)

Ответ на: комментарий от anonymous 20.07.21 20:49:15 MSK

там именно тессеракт, который работает в три раза быстрее тессеракта, ага.

Там был тессеракт, потом LeadTools теперь там abbyy. https://www.tracker-software.com/company/news-press-events/view/245

Therefore, in Version 9 we decided to replace the LeadTools OCR SDK with the industry-leading OCR library from ABBYY Software. The new OCR recognition is greatly improved and displays a significantly higher level of accuracy for many document types and language sets.

анон как всегда, жиденько.

nikitos ★★★
(20.07.21 21:33:38 MSK)

Ответ на: комментарий от nikitos 20.07.21 21:33:38 MSK

анон как всегда, жиденько.

Анону делать нефиг, как только отслеживать, что они там опять поменяли. Когда анон этим поинтересовался, тогда там был тессеракт. Наверное, карманы набили на бесплатном и появились деньги купить у аббыы их шидевр.

Так шо анон тебе советует вслед мотылять на винфак. Напоминаю, ты, чучело, на форуме про линукс. Пошел вон отседова, че ты лезешь в линуксы, пугало виндовое?

anonymous
(20.07.21 22:09:09 MSK)

Ответ на: комментарий от nikitos 20.07.21 21:33:38 MSK

Там был тессеракт, потом LeadTools теперь там abbyy. https://www.tracker-software.com/company/news-press-events/view/245

Здесь не место обсуждать платные виндовые программы. Что ты здесь вообще делаешь? Есть же специальные форумы по обсуждению таких программ, наверное. Тебе туда дорога.

anonymous
(20.07.21 22:12:34 MSK)

Ответ на: комментарий от anonymous 20.07.21 22:09:09 MSK

Наверное, карманы набили на бесплатном и появились деньги купить у аббыы их шидевр.

Во первых, это какбы опять не так, но насколько это не так, мне мешает поведать NDA.

А так-то да, пока линукс и опенсорс под чуткой защитой анонимусов лора, которые знают кому куда и когда идти, то ни MRC-pdf, ни нормального djvu в опенсорсе не появится. Так как одно дело гавкать, другое дело - код писать, третье дело делать его открытым (как говорится фром май харт, имел опыт опенсорсить патчик в гугло-опенсорс ‘ceres-solver’, впечатления: ‘ну его нахер, и гугл, и опенсорс’ :)).

Во-вторых, кто ж вас опенсорсных про тонкости алгоритмов обработки картинок просвятит, вы ж в инторнетах читать статьи в pdf, не умеете, отцов основателей X-ов и ими сделанной науки не знаете, на платный стандарт за 200 франков у вас тоже денег нет, вот и топчитесь на месте, гавкая от бессильной злости.

nikitos ★★★
(20.07.21 22:29:21 MSK)

Ответ на: комментарий от nikitos 20.07.21 22:29:21 MSK

Во первых, это какбы опять не так, но насколько это не так, мне мешает поведать NDA.

О, да, нифига себе крутой чел, целое NDA с кем-то там подписал. Татуировку себе на лбу сделай: «Чувак с большим NDA!» шоб сразу все приседали с перепугу. То есть даже бесплатно попользовав тессеракт, не вложив в него ни цента, эти виндопогромисты еще и недовольны? Убей себя оп стену.

А так-то да, пока линукс и опенсорс под чуткой защитой анонимусов лора, которые знают кому куда и когда идти, то ни MRC-pdf, ни нормального djvu в опенсорсе не появится. Так как одно дело гавкать, другое дело - код писать, третье дело делать его открытым (как говорится фром май харт, имел опыт опенсорсить патчик в гугло-опенсорс ‘ceres-solver’, впечатления: ‘ну его нахер, и гугл, и опенсорс’ :)).

О, та ты еще нам, анонимусам, сделал одолжение появившись тут? Пошел вон, ты форумом ошибся. Зачем ты здесь? Со всеми своими претензиями «а-ля совок»!

Во-вторых, кто ж вас опенсорсных про тонкости алгоритмов обработки картинок просвятит, вы ж в инторнетах читать статьи в pdf, не умеете, отцов основателей X-ов и ими сделанной науки не знаете, на платный стандарт за 200 франков у вас тоже денег нет, вот и топчитесь на месте, гавкая от бессильной злости.

О, все хуже, чем казалось изначально – иди к врачу, шоб потом принудительно не везли. Или убейся об стену. Мир станет чище.

anonymous
(21.07.21 00:09:45 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.07.21 20:21:59 MSK

О, специалисты с рутракеры и от зверьсиди подтянулись. Пиши есче, братишка. Нам тебя так не фатало.

По делу есть что сказать? Например, рассказать при каких условиях Tesseract лучше, чем Finereader?

praseodim ★★★★★
(21.07.21 11:21:24 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.07.21 22:12:34 MSK

Здесь не место обсуждать платные виндовые программы. Что ты здесь вообще делаешь? Есть же специальные форумы по обсуждению таких программ, наверное. Тебе туда дорога.

Тут вообще-то работу и преобразование в djvue обсуждают. До сих пор опенсорный софт в этом отношении отстает от проприетарного. Сабж, кстати, один из шагов по сокращению отставания.

Что до tesseract vs finereader, то даже не смотря на уже долгое загнивание FR, я сильно сомневаюсь, что tesseract приблизится по качеству. Скорее всего, однажды кто-то просто запилит на нейросетках и/или OpenCV что-то действительно качественное.

praseodim ★★★★★
(21.07.21 11:33:26 MSK)

Ответ на: комментарий от praseodim 21.07.21 11:33:26 MSK

Тут вообще-то работу и преобразование в djvue обсуждают. До сих пор опенсорный софт в этом отношении отстает от проприетарного. Сабж, кстати, один из шагов по сокращению отставания.

О, новые свежие мысли! Мы что-то пропустили про передовой проприетарный программ для работы и преобразования в «djvue» (?). Просвети нас, убогих, это ж кто там бабки лопатой гребет на этом прекрасном формате?

Что до tesseract vs finereader, то даже не смотря на уже долгое загнивание FR, я сильно сомневаюсь, что tesseract приблизится по качеству. Скорее всего, однажды кто-то просто запилит на нейросетках и/или OpenCV что-то действительно качественное.

Похоже, ты даже не смог запустить тессеракт, ибо под виндоус это труднее сделать чем обычно.

Если ты так всей душой ненавидишь программное обеспечение с открытым исходным кодом, пользуешься виндоус и вооще чоткий чувак, то што ты делаешь на этом форуме? Извращенец? Псих?

anonymous
(21.07.21 19:11:46 MSK)

Ответ на: комментарий от anonymous 21.07.21 19:11:46 MSK

О, новые свежие мысли! Мы что-то пропустили про передовой проприетарный программ для работы и преобразования в «djvue» (?).

Если бы ты им пользовался, знал бы, что выложенный под GPL фирмой-разработчиком пакет DjvuLibre урезан в смысле качества по сравнению с их проприетарным вариантом. С его помощью нельзя добиться такой же степени сжатия.

Похоже, ты даже не смог запустить тессеракт, ибо под виндоус это труднее сделать чем обычно.

Похоже я пользовался и тем и другим. Tesseract, конечно улучшается, особенно с обучением он даже иногда и совсем неплохие результаты дает, тем не менее проигрывает он Finereader.

Если ты так всей душой ненавидишь программное обеспечение с открытым исходным кодом,

Ты с фантазиями в своей голове споришь, приписывая мне какую-то ерунду. Или для тебя признание недостатков == ненавидишь?

praseodim ★★★★★
(21.07.21 21:48:17 MSK)

Ссылка

Ответ на: комментарий от Truf 18.07.21 14:19:35 MSK

такой конвертер и есть

Конвертирование djvu в pdf с сохранением сегментации (pdfbeads)

anonymous
(21.07.21 22:31:04 MSK)

Ответ на: комментарий от anonymous 21.07.21 22:31:04 MSK

Конвертирование djvu в pdf с сохранением сегментации (pdfbeads)

Одни странные люди кодировали в странный формат, другие странные люди перекодируют в нормальный формат с накопленными в странном формате ошибками. Странное это место – рунет – где полно нищих энтузиастов странных вещей и понятий. И эти энтузиасты сбиваются в стаи и травят всех остальных. В результате много ценных раритетных книг отсканировано в неархивный формат – в формат, который использует созданную в процессе кодирования библиотеку часто встречаемых символов. Естественно, при этом количество ошибок значительно. Что не годится для архива.

Удивительно, но эти странные энтузиасты продолжают портить сканы в этот странный формат. Даже для действительно ценных книг. Вот что могут натворить энергичные идиоты, которые сбиваются в стаи.

anonymous
(21.07.21 23:45:56 MSK)

Ответ на: комментарий от anonymous 21.07.21 23:45:56 MSK

Ну жирно же…

Truf ★
(22.07.21 00:07:35 MSK) автор топика

Ответ на: комментарий от Truf 22.07.21 00:07:35 MSK

Ну жирно же…

Что сказано неправильно?

Жирно то, что ты в 2021 году пытаешься делать оптимизации для кодировщика в заброшенный формат, который портит исходные сканы и ни для чего не годится. И никогда не будет стандартизирован и использован для настоящего архивного хранения. Жирно именно то, что ты застрял в прошлом и выглядишь, мягко говоря, смешно. Похоже на то, что кто-то сейчас стал бы оптимизировать заброшенные графические bmp и gif.

При этом ты пытыешься еще и новости строчить о том, какой ты молодец, на сомнительного качества ресурсе, где абсолютное большинство посетителей не пользуются той операционной системой, которую пытаются обсуждать.

Ты никогда не задумывался об этих вещах? Не? Может лучше заняться, тем, что в реальности будет хоть кому-то полезно?

anonymous
(22.07.21 00:19:44 MSK)

Ответ на: комментарий от anonymous 21.07.21 22:31:04 MSK

Конвертирование djvu в pdf с сохранением сегментации (pdfbeads)

Спасибо, не знал, интересно. Нужно еще будет посмотреть на pdfbeads. Насколько я понимаю, это на шаг ближе к тому, что хотелось бы, но не то. То, что я назвал «максимально тупым способом» - это рендеринг djvu в картинку, с последующим кодированием в pdf. Тут же, как понимаю, идет рендеринг в 2 разных слоя - текст и иллюстрации, с последующим кодированием в pdf. Это лучше, т.к. позволяет сохранить сегментацию, но не то, т.к. не позволяет сохранить словарь текстового слоя, а строит его заново. Хотелось бы иметь прямой конвертер формата JB2 (текстовый слой DjVu) в формат JBIG2 (текстовый слой PDF) без рендеринга.

Truf ★
(22.07.21 00:26:07 MSK) автор топика

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← Крупнейший российский холдинг отказался от ПО IBM и Microsoft

Open Source

Выпуск Qmmp 2.0.0 →

Похожие темы