LINUX.ORG.RU

libzim 9.0.0

 , kiwix, , ,

libzim 9.0.0

0

1

Состоялся выпуск 9.0.0 библиотеки libzim, написанной на языке C++ и предназначенной для работы с файлами в формате ZIM. Разработка библиотеки ведётся и спонсируется проектом Kiwix.

ZIM — формат файла, предназначенный для офлайн-хранения информации, полученной из Web, в виде одного файла. В ZIM-файле в сжатом виде находятся логически связанные между собой html-страницы (а иногда и образы сайтов целиком) с работающими гиперссылками, изображениями, звуком и видео.

Проектом Kiwix разрабатывается набор консольных утилит zim-tools, десктопный и мобильные клиенты, и скрипты для создания файлов ZIM из дампов проектов Wikimedia или из HTML.

Также libzim используется в форке GoldenDict GoldenDict-NG.

Краткий список возможностей библиотеки:

  • создание файлов ZIM c сжатием данных в формате Zstandard (ранее поддерживались форматы ZIP, LZMA и Bzip2);
  • поиск по названиям статей;
  • опциональная поддержка Xapian для полнотекстового поиска. Множество файлов ZIM можно скачать здесь.

Список изменений:

  • исправлена ошибка в функции getMediaCount(), если в файле ZIM отсутствовала информация M/Counter;
  • оптимизирована функция Entry::getItem();
  • обеспечена совместимость с C++17;
  • поддержка последних версий фреймворка тестирования googletest;
  • многочисленные исправления для Apple macOS/iOS и CI.

>>> Подробности

★★★★

Проверено: hobbit ()
Последнее исправление: hobbit (всего исправлений: 3)

Ответ на: комментарий от vbcnthfkmnth123

Измельчал нонче луноход, то разобъётся, то маны читать не хочет…

token_polyak ★★★★
()
Ответ на: комментарий от vbcnthfkmnth123

Лично я уже узнал (но переход по ссылке, которая казалось бы должна это прояснить - не помог в этом), но это не важно. Надо уважать читателей и давать возможность понять о чём вообще речь без хождения по ссылкам.

firkax ★★★★★
()
Ответ на: комментарий от vbcnthfkmnth123

Мда, неужели так сложно понять очевидную вещь? Никаких шуток. Новость должна быть самодостаточной. В ней может не быть уточняющих подробностей, но всегда должно быть общее понимание ситуации.

Насчёт популярности данного формата, кстати, красноречиво говорит эта страница: www.linux.org.ru/tag/zim

Всего две новости, обе то одного автора и обе без уточнений что это. И ещё одна новость из 2014 и тема на форуме из 2020 про некий редактор zim, но кажется это что-то другое.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 2)
Ответ на: комментарий от firkax

zim прога для ведения личного wiki, она не использует этот формат

s-warus ★★★
()
Ответ на: комментарий от firkax

Кажется припоминаю, в прошлый раз я тоже спрашивал что это такое. Но и на этот раз, и видимо невеки впредь, автор новости никогда не напишет зачем нужен формат

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от I-Love-Microsoft

упрощенно: формат для упаковки сайтов в один файл, используется всевозможными wiki

s-warus ★★★
()
Ответ на: комментарий от vbcnthfkmnth123

Вам 80 лет? Тяжело читать?

Он совершенно прав. НОЛЬ информации в теле новости. И НОЛЬ информации на сайте.

Открываем: https://wiki.openzim.org/wiki/ZIM_file_format не находим ни одного слова ЧТО ЭТО ТАКОЕ.

У авторов этого чуда очень плохо с головой.

lefsha
()
Ответ на: комментарий от lefsha

НОЛЬ информации в теле новости. И НОЛЬ информации на сайте

Я конечно не автор новости, но я ссылки кидал и на галерею, где показан конкретный пример использования и на википедию где, указано что это такое и для чего. Человек просто не осилил прочитать три абзаца на которые я кидал ссылки, из чего я сделал вывод что видимо он очень стар и ему физически тяжело прочитать три абзаца текста.

vbcnthfkmnth123 ★★★★★
()
Ответ на: комментарий от vbcnthfkmnth123

https://en.wikipedia.org/wiki/ZIM_(file_format)

Это писал полный идиот.

Я могу про абсолютно любой на свете формат написать подобное:

XYZ Next Generation - Новейший форма для удобного хранения данных. Значительно улучшен по сравнению с предыдущей версией XYZ и полностью переработан по сравнению с предыдущим XY форматом.

Базой для целого поколения этого формата был формат X, который позволял сохранять данные для чтения их компьютером, но сильно отставал от современного крутого формата XYZ-NG.

Для работы с этим форматом используется библиотека XYZ-NG-LIB А для обработки данных программа XYZ-NG-PROG.

«Покупайте наших слонов» (с)

lefsha
()
Ответ на: комментарий от vbcnthfkmnth123

Там есть ТЕКСТ. Но там НЕТ смысла. Вообще. От слова совсем. Я подобное написал выше. Кол-во информации совпадает.

lefsha
()
Ответ на: комментарий от vbcnthfkmnth123

Я привел пример аналогичного текста. Там тоже все написано. И про формат и про библиотеку и про программу.

Для танкистов или тех кто притворяется «кем-то»

я приведу пример где ДЕЙСТВИТЕЛЬНО есть описание формата файла

https://en.wikipedia.org/wiki/JPEG https://en.wikipedia.org/wiki/PNG

Это писали люди у которых с головой в порядке.

lefsha
()
Ответ на: комментарий от vbcnthfkmnth123

Я же четко написал. Там НОЛЬ информации.

Чтобы было что-то непонятно, нужно чтобы было некоторое кол-во информации. Здесь информация отсутствует начисто. Тут не корректно задавать вопрос - Что непонятно? Понятно - ВСЁ. Информации - НОЛЬ.

На эту тему есть анекдот.

После урока рисования Вовочка сдает чистый лист. Учитель спрашивает - Вовочка это что такое?

Вовочка отвечает: Это рыбка плавает в море. Учитель: Но я не вижу никакой рыбки и я не вижу никакого моря… Вовочка: Понимаете ли учитель, рыбка она очень маленькая и её просто не видно. А море оно огромное и не поместилось на рисунке…

Таже фигня с этим описанием…

В одном месте https://wiki.openzim.org/wiki/ZIM_file_format

Я читаю, что Header начинается с… magicNumber что сразу открывает глаза на этот мир…

а в другом месте https://en.wikipedia.org/wiki/ZIM_(file_format)

Я читаю, что:

The ZIM file format is an open file format that stores wiki content for offline usage.

Эта фраза НИЧЕМ не отличается от фразы, что формат XYZ-NG позволяет хранить данные в удобном виде…

В обеих этих фразах ровно НОЛЬ смысла.

Я не понимаю как это не видно любому человеку на 1ой секунде. И зачем ЭТО надо объяснять.

lefsha
()
Последнее исправление: lefsha (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Хотите другой пример?

Я Вам хочу продать автомобиль. В нём наша компания использует гайку M8. И мы планируем, что наш автомобиль будет… ездить.

Вы купите такой автомобиль?

Приблизительно тоже самое с этим форматом.

lefsha
()
Ответ на: комментарий от vbcnthfkmnth123

Человек просто не осилил прочитать

Чего я не осилил прочитать? Речь про новость. В новости есть ссылка на якобы подробности о том, что такое формат zim, но по ней нет ничего полезного на эту тему. Как нет этого и в самой новости. Я, разумеется, уже узнал что это за формат, но это ничуть не извиняет подачу материала автором новости.

firkax ★★★★★
()
Ответ на: комментарий от lefsha

Там НОЛЬ информации

Ну почему же ноль информации. Давайте разберем вместе, по частям написанное. The ZIM file format is an open file format that stores wiki content for offline usage. Это значит что zim позволяет запускать вики без интернета. Смотрим дальше. Its primary focus is the contents of Wikipedia and other Wikimedia projects. И конкретно используется для хранения википедии локально, и других википроектов, например викисловарь и так далее. Дальше

The format allows for the compression of articles, features a full-text search index and native category and image handling similar to MediaWiki, and the entire file is easily indexable and readable using a program like Kiwix – unlike native Wikipedia XML database dumps.

Оказывается это не просто формат, а он ещё и со сжатием и поиском. таким образом если скачать википедию руками и сравнить с википедией в таком формате, то википедия в ZIM будет весить меньше. Например несколько терабайт скачанной руками и 90 с чем-то гигабайт в ZIM. Кроме того из этого текста мы узнали, что википедия делает дампы в этом формате. То есть не придется тратить время на скачивание нескольких терабайт и их преобразование в формат ZIM, а можно скачать сразу готовый дамп. Также понятно что для открытия таких файлов можно использовать какую-то программу под названием Kiwix. Так много мы узнали, не правда ли?

ZIM stands for «Zeno IMproved», as it replaces the earlier Zeno file format. Its file compression uses LZMA2, as implemented by the xz-utils library, and, more recently, Zstandard. The openZIM project is sponsored by Wikimedia CH, and supported by the Wikimedia Foundation.

В дальнейшем из текста можно узнать почему формат называется именно ZIM, потому что это сокращение Zeno IMproved. И также понятно что используется сжатие LZMA2 или чаще Zstandard. Оказывается ZIM финансируется википедией. Внезапно, не правда ли?

vbcnthfkmnth123 ★★★★★
()
Ответ на: комментарий от firkax

Я указывал ссылки на википедию где указано что-это такое. Ну и ссылку кинул на галерею где показан пример использования. Можно осилить 3 абзаца и прочитать это. Ну если конечно вы не 80-десятилетний или старше, которому физически тяжело это делать. Я не автор новости конечно, но просто глупо выглядит когда информация у вас уже есть, а вы её просто игнорируете и продолжаете возмущаться.

vbcnthfkmnth123 ★★★★★
()
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Да причём тут что ты указывал? Повторяю третий раз: претензии к оформлению новости. Эти ссылки должны были быть в ней а не в комментах от других участников. А лучше не ссылки а всего лишь одна фраза о том, что zim это формат заархивированной структуры связанных html-страниц.

Я не автор новости конечно, но просто глупо выглядит когда информация у вас уже есть, а вы её просто игнорируете и продолжаете возмущаться.

Ты идиот? Кто тут ещё читать не умеет? Я уже два раза написал, что уже выяснил зачем нужен этот формат. Дело не во мне.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Вы серьезно? Вы правда хотите по рассуждать? Вы что автор этого чуда? Вам это зачем?

Чтобы не было сильно БОЛЬНО, предлагаю посмотреть это видео:

https://youtu.be/Ct-lOOUqmyY

Это значит что zim позволяет запускать вики без интернета

ZIM это программа? Как формат данных позволяет что-то запускать?

Что такое «Запускать Вики» ??? - Я не понимаю. Что значит без интернета? - Я не понимаю.

Если мне очень надо… не знаю правда зачем Я могу сохранить любую страницу той же Wikipedia с помощью стандартной функции браузера - Save Page As.

Что я упускаю?

И конкретно используется для хранения википедии локально, и других википроектов, например викисловарь и так далее.

Все, ну почти… Знают, что страницы в интернете представляют собой HTML файлы. Формат которых всем понятен. Я лично не в курсе, что Википедия представлена другим форматом и что она чем-то отличается от любой другой страницы в интернете.

Авторы «придумали» HTML формат ещё раз?

Когда люди пишут докторскую работу или статью в техническом журнале они всегда начинают с МОТИВАЦИИ. На кой ляд они делают то что уже существует?

Люди пишут, что на настоящий момент времени есть такие возможности. Мы предлагаем другие возможности. Наш формат лучше, больше, дальше. И в частности мы может делать вот так и так, а все остальные не могут. Или мы можем это делать быстрее или дешевле. И так далее. Потом приводят технические параметры.

Но НЕ то что header начинается с MagicNumber, а это как гайка M8 в автомобиле и ВСЕМ включая создателей плевать какая там гайка.

А с того, что условно страница в Википедии сохраненная в таком формате может читаться в браузере. И что любая другая страница может быть сохранена в этом формате. А может нет. Может только Википедия. Сейчас 90% инета не работает без скриптов. Скрипты туда тоже встроены или нет? Если все встроено, то зачем дублировать интернет??? Чтобы что? Еще один 115 формат данных в удобном виде?

Оказывается это не просто формат, а он ещё и со сжатием и поиском

Любой файл можно сжать и делать по нему поиск. Это придумали «100 лет» назад. У людей базы данных в сжатом формате лежат. Или эти люди еще и колесо придумали?

Так много мы узнали, не правда ли?

Нет. Я ничего не узнал. Если формату файла уже скоро 20 лет и никто про него ничего не знает и про программу Kiwix тоже никто ничего не знает, то есть вероятность, что и следующие 100 лет никто не узнает потому что оно не нужно. Оно не решает никакие задачи, которые кому-то надо решать.

Кому надо тот давно страницы и скрипты посылает в WEB в сжатом виде. Есть форматы которые поддерживаются браузерами.

Эти люди придумали новый формат сжатия? - Об этом ни слова. Скорее всего нет. Если они используют стандартный формат, то почему если они его используют, то уних есть выгода, а если я будут использовать БЕЗ них, то у меня не будет…

Например несколько терабайт скачанной руками и 90 с чем-то гигабайт в ZIM

Я про это. Ну сожму я данные и что?

В дальнейшем из текста можно узнать почему формат называется именно ZIM, потому что это сокращение Zeno IMproved.

Как раз ровно наоборот - они с этого начали. Если Вы правда умеете читать… То текст описания формата начинается со слов:

«Beginning 2021, we change the way we handle namespaces in ZIM file format.»

Это их личная WIKI. И там они могут писать все что угодно. Они начали текст с чего? Это явный признак отклонения в мыслительном процессе.

Информация о том почему такое название обычно второстепенно и находится в конце.

У них чтобы узнать что такое ZIM можно дойти до его предка и там https://wiki.openzim.org/wiki/Zeno_file_format

в самом начале написано, что «The Zeno file format has been obsoleted by the ZIM (Zeno IMproved) file format.»

В итоге. До текущего момента, несмотря на Ваши комментарии я так и не понял ЧТО ЭТО ТАКОЕ? Это не написано НИГДЕ.

Я Вам привел пример адекватного описания формата файлов. Вы оставили это без внимания.

lefsha
()
Ответ на: комментарий от vbcnthfkmnth123

firkax совершенно прав.

Информации нет никакой. Вы лично не смогли это никак доказать. Вы сами! не привели никакой информации про то ЧТО ЭТО за ЧУДО?

Ни по одной ссылке нет осмысленного текста. Но и у Вас не вышло его написать.. Вы тоже не умеете читать?

Напишите адекватное описание этого формата. Докажите, что Вы сами что-то поняли!

lefsha
()
Ответ на: комментарий от vbcnthfkmnth123

Желательно данные три абзаца перенести в тело новости, если модераторы могут отредактировать текст новости

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от firkax

слово зархивированной путает, нет там архива в понимании файлового архива, сжатие есть, папок-файлов в понимании fs нет, документы есть, заголовки title есть, url есть, тип документа есть.

s-warus ★★★
()
Ответ на: комментарий от Kolins

maf не в курсе что такое

Примерно то же самое, что и mht, только не от MS, а от Мозиллы. Ну и у обоих них был честный MIME внутри. Кстати, это один из крайне редких случаев, когда MS не стал велосипедить формат с нуля, а использовал известные отраслевые решения (кроме него разве что DOCX вспоминается, и то с сильными оговорками).

hobbit ★★★★★
()
Ответ на: комментарий от lefsha

Вы что автор этого чуда?

Нет. Когда это создали, я ещё в школу ходил.

ZIM это программа?

Нет. Это тип данных.

Как формат данных позволяет что-то запускать?

Как формат HTML позволяет запускать сайт? С помощью браузера, конечно. Только там ещё сервер нужен, а файлы zim можно обычно запускать без него. Иногда это не не работает, но в этом случае этот особенный браузер позволяет поднять такой сервер локально и к нему можно подключиться через обычный браузер.

Что такое «Запускать Вики» ???

Это значить что с помощью особого браузера который умеет понимать такие особые HTML файлы(zim) можно поднять википедию локально. То есть во время запуска интернет не понадобится.

Авторы «придумали» HTML формат ещё раз?

По сути да. Это сжатый HTML с встроенным поиском. Ну и индексацией. То есть это встроено внутри самого формата.

Эти люди придумали новый формат сжатия?

По сути нет. Там такое сильное сжатие достигается за счет аггресивного сжатия медиафайлов. Именно медиафайлы(картинки и видео) занимают большую часть объема. Например картинки которые я видел сжиматся до размера превью и больше не кликабельны.

Я про это.

Ну это удобно для тех у кого плохой инернет или для тех у кого его нет. То есть это активно используется например в Африке. Они там скачивают википедию на флешку, затем едут к себе домой и используют википедию уже локально. Лично я тоже использую это потому что тупо удобно, википедия всегда доступна вне зависимости есть интернет или нет.

Как раз ровно наоборот

Неа. Я вам разбирал статью по порядку, то есть ровно как было указано в статье. Могу скриншот кинуть, где такой же порядок.

Информация о том почему такое название обычно второстепенно и находится в конце.

Вы мало используете википедию похоже. Они в каждой статье в начале указывают название.

Я Вам привел пример адекватного описания формата файлов

Вопреки вашему мнению я не являюсь телепатом. Поэтому я не знаю что вы хотите от меня, пока вы это не озвучите. К сожалению моя libastral не работает.

vbcnthfkmnth123 ★★★★★
()
Ответ на: комментарий от ergo

в общем, из новости не узнал что это и зачем :).

Если Википедию забанят, то это будет один из вариантов распространения ее статей. Так лучше?

X-Pilot ★★★★★
()
Ответ на: комментарий от X-Pilot

Если Википедию забанят, то

…у экспертов по всему на свете резко усложнится жизнь)

alex1101
()

Говорят Касперский свою ОС создали «Kaspersky OS»..на телефоны, замисть андроида, кто что дышал, может пользовался..???

Antonio88
()
Ответ на: комментарий от hobbit

mht это именно архив, а zip это заготовка для веб сервера: какой документ отдать на данный url

s-warus ★★★
()
Ответ на: комментарий от s-warus

zip - связка upl-адрес выдать такой документ

Ничё не понял. ZIM, а не zip - вы оговорились, да?

Что такое upl-адрес?

Вообще, можно пример .zim файла?

tiinn ★★★★★
()

Обычно надо сохранить только одну страницу, для этого пользуюсь mht-плагином в браузере.

Для большего - httrack, но это крайне редко нужно.

linalex
()

Хорошо. Википедия выкладывает дампы. А как забекапить сайт, администрация которого не озаботилась таким вопросом?

hateWin ★☆
()
Ответ на: комментарий от X-Pilot

Если Википедию забанят, то это будет один из вариантов распространения ее статей. Так лучше?

Это невозможный случай. Скорее рак на горе свистнет. 1/6 суши при этом никого не интересует.

lefsha
()
Ответ на: комментарий от vbcnthfkmnth123

Нет. Это тип данных.

Это Вы написали, что ZIM что-то запускает. Очевидно тип данных не может ничего запускать.

Как формат HTML позволяет запускать сайт? С помощью браузера, конечно.

Т.е. HTML формат ничего не запускает. И браузер тут не обязателен. Сервер тоже не нужен. Вы опять что-то путаете. Разберитесь наконец САМИ как оно работает прежде чем пытаться объяснять что-то другим.

По сути да. Это сжатый HTML с встроенным поиском. Ну и индексацией. То есть это встроено внутри самого формата.

Люди ещё раз придумали колесо… Тогда не удивительно, что им никто не пользуется и никто не знает.

По сути нет. Там такое сильное сжатие достигается за счет аггресивного сжатия медиафайлов. Именно медиафайлы(картинки и видео) занимают большую часть объема. Например картинки которые я видел сжиматся до размера превью и больше не кликабельны.

Вы очень смешной человек. Это либо дикий троллинг, либо Вы вчера родились. Ну почитайте наконец про «картинки и видео»… Люди десятилетиями разрабатывают методы их сжатия, а тут приходите Вы и предлагаете их сжимать… Я Вам предлагал зайти на wiki про JPEG. Если Вы или этот «формат» сожмет JPEG ещё раз, то это сразу Нобелевка. Но скорее всего это тролинг такой. Или полное отсутствие понимания о чём Вы пишите.

Ну это удобно для тех у кого плохой инернет или для тех у кого его нет.

Мне кажется лучше в таком случае начать с книг. Получить образование из WIKI это не лучший способ начать жизнь. Тогда рассуждения человека будут сильно похожи на Ваши… Образование детей в Африке никого не волнует. Они могут и WIKI читать…. Главное чтобы никого не убивали…

Вы мало используете википедию похоже. Они в каждой статье в начале указывают название.

Мы не говорим о самой Википедии! Мы говорим о конкретном формате данных и его страницы на их сайте! Сайте создателей формата!

Но в Википедии - я линк привел, тоже ничего умного не написано! На их же сайте вообще ничего, что можно назвать информацией, не написано.

Кто ясно мыслит, тот ясно излагает. Меня этому в школе учили. Тут это явно нарушено.

В итоге совершенно без разницы. Речь вообще была о том, что ЗДЕСЬ на этом сайте не было никакой информации тоже. Это говорит о том, что это заразно.

lefsha
()
Ответ на: комментарий от vbcnthfkmnth123

Вопреки вашему мнению я не являюсь телепатом. Поэтому я не знаю что вы хотите от меня, пока вы это не озвучите. К сожалению моя libastral не работает.

Скорее всего у Вас не работает интернет. Открыть сайт и почитать особого ума не надо.

Я Вам просто привел пример как надо такое делать. Но раз Вы не автор, то какая разница. Просто надо воспитывать в себе хороший вкус. Отличать хорошее от плохого, вот и все.

Чтобы что-то объяснить нужно пройти курс обучения в несколько лет. Я этого не предлагаю. Это долго и дорого. Для этого есть школы и университеты.

lefsha
()
Ответ на: комментарий от lefsha

Очевидно тип данных не может ничего запускать.

Очевидно. Но мне приходится утрировать, чтобы вы поняли. Потому что очевидно вы совсем не понимаете как это работает, судя по вашим словам, и мне приходится значительно упрощать, чтобы вам было понятно.

Вы очень смешной человек. Это либо дикий троллинг, либо Вы вчера родились

Вы очевидно не понимаете о чем говорите. Скачайте любой zim файл с картинками, откройте в том же kiwix и увидите что там как я описал.

Мне кажется лучше в таком случае начать с книг

Книги ещё довезти надо. Это же Африка. Привезти флешку куда проще, чем грузовик с книгами. А объем там информации примерно одинаковый. Чтобы вы понимали Project Gutenberg(у меня это есть, так что информация из первых рук скажем так.), в zim файле весит примерно более гигабайт 50. А там на секундочку 60 000 книг примерно. Это всё на флешку одну умещается.

Люди ещё раз придумали колесо

По сути да.

На их же сайте вообще ничего, что можно назвать информацией

Это понятно что вы ничего не поняли, не нужно повторять. Задавайте конкретные вопросы, я постараюсь вам объяснить так чтобы вы поняли это.

vbcnthfkmnth123 ★★★★★
()
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 3)
Ответ на: комментарий от vbcnthfkmnth123

Project Gutenberg(у меня это есть, так что информация из первых рук скажем так.), в zim файле весит примерно более гигабайт 50.

А сколько он занимает в случае использования банального *.tar.gz?

ugoday ★★★★★
()
Ответ на: комментарий от ugoday

Без понятия. А зачем его так хранить? Это же неудобно. Если Project Gutenberg в zim файле то его в любой момент можно открыть через kiwix и любую книгу там прочитать. А если он в *.tar.gz будет, то придется постоянно распаковывать его, плюс ещё костыли для поиска книг городить, когда тут в zim все встроено. Можно конечно программу отдельную взять, которая все это будет делать, например myrulib, но там свои ограничения есть, например на размер архива. Поэтому надо будет дробить все это на архивы, упаковывать и прочее. Проще взять готовый zim файл и скормить его kiwix

vbcnthfkmnth123 ★★★★★
()
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.