OpenZL 0.1.0

facebook, openzl, алгоритмы, компрессия, с

3

2

6 октября состоялся выпуск 0.1.0 фреймворка OpenZL, предназначенного для создания компрессоров данных без потерь.

В проект также входит демонстрационная консольная утилита zli.

Ян Колле (автор Zstandard) написал на форуме encode.su:

Мы открываем исходный код OpenZL – нового подхода к сжатию данных с акцентом на структурированные данные. В большинстве центров обработки данных имеются огромные потоки данных. Однако эти данные редко бывают «случайными» – как правило, они следуют чётко определенной схеме или формату. Обычно с этими форматами знакомы несколько инженеров.

Если алгоритм сжатия может быть обучен структуре сжимаемых данных, он может достичь значительно лучших результатов сжатия.

Насколько лучше?

Улучшение существенное – часто двузначное процентное увеличение, а иногда и больше. Важно, что эти улучшения достигаются без значительного влияния на скорость, что крайне важно для высокопроизводительных конвейеров данных.

Ограничения.
Эта технология лучше всего подходит для данных, которые можно описать и структурировать. Она не предназначена для сжатия произвольных или случайных файлов из Интернета. В таких случаях компрессор по умолчанию использует zstd, обеспечивая ту же производительность, что и традиционные методы – по крайней мере, на данный момент.

Фреймворк состоит из базовой библиотеки и инструментов для создания специализированных компрессоров, описанных на языке SDDL.
Для создания хорошего специализированного компрессора есть два этапа:

Анализ данных для извлечения структуры.
Использование хороших бэкенд-компрессоров, которые используют полученную структуру для достижения хорошего сжатия.

OpenZL предоставляет инструменты для обоих этапов.

Проект написан на языках C и C++ и распространяется по лицензии BSD.

В других источниках:

>>> Исходный код на GitHub

>>> Анонс на encode.su

Ссылка

←	Python 3.14

Вышел LMDE 7

→

← 1 2 →

На 4-м скриншоте сравнение сжатия небольшого (2.1M, специально!) файла UnicodeData.txt zli-git (с zstd-git внутри), zstd-git и kanzi-git.
Позже я планирую добавить OpenZL в lzbench, если никто не опередит. :)

dataman ★★★★★
(10.10.25 16:27:09 MSK) автор топика

Ссылка

Сложно-непонятно, но очень интересно.

CrX ★★★★★
(10.10.25 17:02:30 MSK)

С опеннета:

Для специфичных форматов требуется сформировать собственный профиль, используя команду «zli train», которая выявляет закономерности в данных и формирует профиль с оптимальным уровнем сжатия. Используя опцию «–pareto-frontier» созданный профиль можно модернизировать в сторону ускорения упаковки или распаковки, ценой снижения уровня сжатия. Для описания сложных форматов со вложенными структурами и определения раскладки форматов данных в структурах может применяться язык SDDL (Simple Data Description Language).

Я вот что не пойму — этот профиль как-то отдельно от сжатых файлов нужно передавать, чтобы на том конце разжать можно было, или же сжатый файл всё же самодостаточен, даже если использовать кастомные профили?

CrX ★★★★★
(10.10.25 17:04:48 MSK)

Ответ на: комментарий от CrX 10.10.25 17:04:48 MSK

Пишут, что не надо:

Обратите внимание, что для декомпрессии не требуется никаких –profile: данные, сжатые с помощью openzl всегда поддается декодированию, независимо от того, какой –profile использовался для сжатия. Профиль влияет только на эффективность сжатия, но не на совместимость.
https://openzl.org/getting-started/quick-start/

krasnh ★★★★★
(10.10.25 17:14:10 MSK)

Ответ на: комментарий от CrX 10.10.25 17:04:48 MSK

или же сжатый файл всё же самодостаточен, даже если использовать кастомные профили?

https://openzl.org/getting-started/introduction/

OpenZL is a framework for building lossless data compressors. It provides a set of primitive codecs that can be composed in a DAG. Additionally, it allows for user-defined control flow to modify the DAG based on the data, at any point in the compression. OpenZL also provides a universal decompressor that can decompress anything produced by the compressor, independent of the compression DAG.

Насколько я понял, этот «универсальный декомпрессор» универсален. :)

dataman ★★★★★
(10.10.25 17:16:05 MSK) автор топика

Ссылка

Если декодер универсальный, без необходимости передавать профиль сжатия, годная штука.

wandrien ★★★
(10.10.25 17:18:21 MSK)

Ссылка

Самое забавное, что у Zstd есть давно есть механика подготовки словаря. А ещё есть cmix, который, ЕМНИП, тоже строит свои кастомные трансформаторы.

DarkAmateur ★★★★★
(10.10.25 17:19:21 MSK)

Наконец-то можно писать «Не zli меня».

dataman ★★★★★
(10.10.25 17:31:40 MSK) автор топика

Ответ на: комментарий от DarkAmateur 10.10.25 17:19:21 MSK

И у RAR, например, даже ещё раньше был фильтр для замены смещений в операциях перехода при сжатии x86 кода.

Но тут намного более обобщённый подход.

Спасибо, @dataman. Интересная вещь.

LLM-9000
(10.10.25 17:38:07 MSK)

Ответ на: комментарий от LLM-9000 10.10.25 17:38:07 MSK

Спасибо @krasnh за наводку!
У новости сложная судьба: я ОРВИрую с воскресенья, а вчера ноут глюкнул. Но сегодня всё более-менее, так что получилось, как получилось.

dataman ★★★★★
(10.10.25 17:42:26 MSK) автор топика

Ответ на: комментарий от krasnh 10.10.25 17:14:10 MSK

Круть тогда!

CrX ★★★★★
(10.10.25 17:52:26 MSK)

Ссылка

Ответ на: комментарий от CrX 10.10.25 17:04:48 MSK

О, спасибо, теперь понятно что это за сабжевая хрень и для чего

I-Love-Microsoft ★★★★★
(10.10.25 18:37:30 MSK)

Ссылка

Ответ на: комментарий от CrX 10.10.25 17:02:30 MSK

А что непонятного? Они придумали ультимативный способ сжатия данных, требующий ручного написания компрессора для каждого случая. Из плюсов - декомпрессор стандартный для всех.

kirill_rrr ★★★★★
(10.10.25 19:47:29 MSK)

Ссылка

Звучит интересно.
Интересно, как дела обстоят с производительностью компрессии? Можно ли этот профиль использовать для оптимизации производительности упаковки/распаковки, когда важнее пропускная способность, нежели компактность?

mittorn ★★★★★
(10.10.25 19:48:20 MSK)

Ссылка

Ответ на: комментарий от CrX 10.10.25 17:04:48 MSK

Мне кажется тут непонятно только как писать этот то ли профиль ,то ли компрессор на практике.

kirill_rrr ★★★★★
(10.10.25 19:49:33 MSK)

Ответ на: комментарий от kirill_rrr 10.10.25 19:49:33 MSK

как писать этот … компрессор на практике.

openzl /examples.

dataman ★★★★★
(10.10.25 20:02:57 MSK) автор топика

Ответ на: комментарий от dataman 10.10.25 20:02:57 MSK

Это был риторический вопрос! Любопытно конечно, но у меня нет хреновой тучи структурированных данных хотя бы для того чтобы собрать тестовый набор и поиграться! Даже будь у меня настолько лишнее время..

kirill_rrr ★★★★★
(10.10.25 20:11:11 MSK)
Последнее исправление: kirill_rrr 10.10.25 20:11:33 MSK (всего исправлений: 1)

Ссылка

Интересно применение SDDL. Для BMP:

GenericU8 = UInt8
GenericU16 = UInt16LE
GenericU32 = UInt32LE

FileHeader = {
  signature   : GenericU16
  file_size   : GenericU32
  reserved    : GenericU32
  data_offset : GenericU32
}

file_header : FileHeader

expect file_header.signature == 0x4d42  # "BM"
expect file_header.reserved == 0

InfoHeader = {
  header_size      : GenericU32
  width            : GenericU32
  height           : GenericU32
  planes           : GenericU16
  bits_per_pixel   : GenericU16
  compression      : GenericU32
  image_size       : GenericU32
  x_pixels_per_m   : GenericU32
  y_pixels_per_m   : GenericU32
  colors_used      : GenericU32
  important_colors : GenericU32
}

info_header : InfoHeader

expect info_header.compression == 0

width = info_header.width
height = info_header.height
bits_per_pixel = info_header.bits_per_pixel

num_colors = (
  (bits_per_pixel == 1) * 2 +
  (bits_per_pixel == 4) * 16 +
  (bits_per_pixel == 8) * 256
)

ColorTableEntry = {
  red      : GenericU8;
  green    : GenericU8;
  blue     : GenericU8;
  reserved : GenericU8;
}

color_table_entries : ColorTableEntry[num_colors];

row1_bytes  = 4 * ((width + 31) / 32)
row4_bytes  = 4 * ((width +  7) /  8)
row8_bytes  = 4 * ((width +  3) /  4)
row16_bytes = 4 * ((width +  1) /  2)
row24_bytes = 4 * ((width +  1) * 3 / 4)

Image = {
  : GenericU8[row1_bytes][height][bits_per_pixel == 1]
  : GenericU8[row4_bytes][height][bits_per_pixel == 4]
  : GenericU8[row8_bytes][height][bits_per_pixel == 8]
  : GenericU16[row16_bytes / 2][height][bits_per_pixel == 16]
  : GenericU8[row24_bytes][height][bits_per_pixel == 24]
}

image : Image

первый_скриншот.png (88689 байта).

magick 1.png -compress none BMP3:2.bmp # -> 5591094 байта
zli compress --profile sddl --profile-arg bmp.sddl --train-inline 2.bmp -o 2.zl

Picked 1 samples out of 1 samples with total size 5591094
Benchmarking untrained compressor...
1 files: 5591094 -> 30679 (182.24),  711.74 MB/s  2932.91 MB/s
Selected greedy trainer by default since no trainer was specified
[==================================================] Calculating improvement by clustering tag 5/5
[==================================================] Training ACE graph 2 / 5: ACE progress
[==================================================] Training ACE graph 3 / 5: ACE progress
[==================================================] Training ACE graph 5 / 5: ACE progress
Benchmarking trained compressor...
1 files: 5591094 -> 20498 (272.76),  241.61 MB/s  1437.23 MB/s
Training improved compression ratio by 49.67%
Compressed 5591094 -> 20498 (272.76x) in 30.211 ms, 185.07 MB/s

zli d 2.zl -o 3.bmp
cmp 2.bmp 3.bmp
zstd -19 2.bmp # -> 2.bmp.zst, 24826 байта

Но обучение долгое.

dataman ★★★★★
(10.10.25 21:33:42 MSK) автор топика

Ссылка

Ответ на: комментарий от LLM-9000 10.10.25 17:38:07 MSK

И у RAR, например, даже ещё раньше был фильтр для замены смещений в операциях перехода при сжатии x86 кода.

В LZMA (7z и xz) с самого начала есть BCJ-фильтры, делающие подобные преобразования для нескольких архитектур.

annulen ★★★★★
(10.10.25 22:01:04 MSK)

Ответ на: комментарий от dataman 10.10.25 17:42:26 MSK

Поправляйся!

hobbit ★★★★★
(10.10.25 22:02:59 MSK)

Ответ на: комментарий от hobbit 10.10.25 22:02:59 MSK

Спасибо, буду!

dataman ★★★★★
(10.10.25 22:14:28 MSK) автор топика

Ссылка

Ответ на: комментарий от CrX 10.10.25 17:02:30 MSK

да, сразу сказать, насколько это может быть эффективно, сложно. хотя я ещё в универе писала курсовую по алгоритмам сжатия и понимаю суть проблемы. но вопрос кастомизации пожатия в общем виде не возникает, а в частных случаях при фиксированном формате данных оно обычно и так уже сделано каким-то кустарным образом.

Iron_Bug ★★★★★
(10.10.25 22:15:14 MSK)

Ссылка

Ответ на: комментарий от annulen 10.10.25 22:01:04 MSK

с самого начала есть BCJ-фильтры

Да, есть. Но от того же xz повсеместно в итоге отказались в пользу zstd - что в пакетах дистров, что в LiveCD. Он хорошо жмет, но медленный в распаковке (чтении).

UPD.

что в LiveCD

Сужу по дистрам подобной конструкции, для которых скорость распаковки (чтения) на первом месте.

krasnh ★★★★★
(10.10.25 22:16:53 MSK)
Последнее исправление: krasnh 10.10.25 22:27:58 MSK (всего исправлений: 1)

Ответ на: комментарий от krasnh 10.10.25 22:16:53 MSK

Но от того же xz повсеместно в итоге отказались в пользу zstd - что в пакетах дистров, что в LiveCD

Отказались там, где важны затраты CPU на распаковку и сжатие. А там, где важнее размер файла (и где имеют смысл такие фильтры) xz и 7z живее всех живых

annulen ★★★★★
(10.10.25 22:37:53 MSK)

Ссылка

ага, ты ему рандомный блоб - он тебе: я не лучше чем bz2, прости(с)
так-то понятно что давно все паттерны/словари посчитаны - rar/zip/gzip/bz2.
кто объяснит почему не инфоциганство?

etwrq ★★★★★
(10.10.25 22:51:18 MSK)
Последнее исправление: etwrq 10.10.25 22:51:27 MSK (всего исправлений: 1)

Улучшение существенное – часто двузначное процентное увеличение, а иногда и больше.

Трехзначное сжатие, более 100%?

А так годная штука, думаю. Ждем повсеместного распространения.

sehellion ★★★★★
(10.10.25 22:52:25 MSK)

Ссылка

Как оно в сравнении с xpack?

mittorn ★★★★★
(11.10.25 00:51:13 MSK)

Ссылка

Ответ на: комментарий от etwrq 10.10.25 22:51:18 MSK

давно все паттерны/словари посчитаны - rar/zip/gzip/bz2. кто объяснит почему не инфоциганство?

И где скачать эти словари для zip?

question4 ★★★★★
(11.10.25 02:22:58 MSK)

Если алгоритм сжатия может быть обучен структуре сжимаемых данных, он может достичь значительно лучших результатов сжатия.

Возвращаясь к вопросу, который я недавно задавал на форуме. Насколько сложно этот препроцессор обучить распаковывать сжимаемые данные, заведомо использующие неоптимальное сжатие? Например, если на выход подаётся ZIP, сжатый deflate, на лету преобразовывать его в ZIP с методом store (без сжатия), и уже его сжимать, что даст гораздо большее сжатие. Разумеется, потом, после распаковки архива, потребуется пережимать ZIP обратно deflate-ом, потребуются дополнительные программы для распаковки. Аналогично с PNG/JPG/GIF с deflate/Huffman/LZW.

Можно ли в SDDL специфицировать массивы данных, требующие сложных преобразований перед упаковкой и после распаковки?

question4 ★★★★★
(11.10.25 03:10:22 MSK)

Yann Collet. Menlo Park, California, United States

Что он вообще делает на форуме в домене su ? Он же француз!

Saakx
(11.10.25 03:25:09 MSK)

А гигабайт фильмов в килобайт сожмет? А обратно разожмет?

water_closed ★
(11.10.25 08:31:42 MSK)

Ответ на: комментарий от question4 11.10.25 02:22:58 MSK

ну если для вас это открытие, то словари строятся на основе входных данных.

etwrq ★★★★★
(11.10.25 09:14:04 MSK)
Последнее исправление: etwrq 11.10.25 09:14:24 MSK (всего исправлений: 1)

Ответ на: комментарий от question4 11.10.25 03:10:22 MSK

ИМХО, такой трюк возможен, но для восстановления исходного ZIP архива бит-в-бит понадобится запомнить определённое количество метаданных: какие длины блоков были в потоке deflate, их типы и главное алфавит (длины кодов Хафмана) для каждого блока, что несколько уменьшит выигрыш.

LLM-9000
(11.10.25 10:05:14 MSK)

Вот так вот, zstd скоро объявят устаревшим и выкинут отовсюду, заменив этим, и старые архивы будет сложно распаковать. Всякие модные архиваторы приходят и уходят, только gzip стандарт навсегда. Стабильность через десятилетия важнее процентов сжатия.

firkax ★★★★★
(11.10.25 10:12:53 MSK)

Ответ на: комментарий от firkax 11.10.25 10:12:53 MSK

Вот так вот, zstd скоро объявят устаревшим и выкинут отовсюду, заменив этим, и старые архивы будет сложно распаковать.

Порой мне кажется, что ты реально нейросеть, которой задали промпт найти любую причину поворчать.

mamina_radost ★
(11.10.25 11:07:03 MSK)

Ответ на: комментарий от LLM-9000 11.10.25 10:05:14 MSK

Ой, нет, чушь морозная в моём предыдущем комментарии. Не получится скорее всего ничего полезного.

Так как в LZSS можно произвольно выбирать литералы кодировать или ссылку, для восстановления исходника 1:1 понадобится либо повторить исходный алгоритм выдавший этот deflate (а он в общем случае неизвестен), либо помимо алфавита, запомнить разбиение на литералы-ссылки, что вообще съест весь выигрыш.

LLM-9000
(11.10.25 11:17:57 MSK)

Ссылка

Завернули бы уже внутрь полноценную нейросетку, которая напишет оптимальный архиватор для каждого случая. Даже странно, если еще никто не сделал на волне хайпа.

unsigned ★★★★
(11.10.25 12:24:56 MSK)

Ссылка

Ответ на: комментарий от mamina_radost 11.10.25 11:07:03 MSK

Где ты ворчание увидел? Я просто увидел очередное подтверждение своей позиции (о том что gzip хватит почти всем). Помню недавно мне втирали что вот gzip устарел вместо него теперь везде xz, потом втирали так же про zstd, теперь вот про openzl будут. А я везде как использовал так и буду использовать gzip - он совместим со всеми системами за последние 30 лет и в будущем тоже везде будет реализован, в отличие от всяких временных решений.

firkax ★★★★★
(11.10.25 12:57:23 MSK)

Ссылка

Ответ на: комментарий от CrX 10.10.25 17:02:30 MSK

Сложно-непонятно, но очень интересно.

... но не очень нужно... ;) :))

Somebody ★★★★
(11.10.25 14:58:54 MSK)

Звучит круто, спасибо за новость

pihter ★★★★★
(11.10.25 15:33:32 MSK)

Ссылка

Ответ на: комментарий от LLM-9000 11.10.25 10:05:14 MSK

для восстановления исходного ZIP архива бит-в-бит понадобится запомнить определённое количество метаданных

Рассмотрим случай, когда это не требуется :)

Я спросил не возможно ли это, а может ли в этом помочь обсуждаемая программа.

question4 ★★★★★
(11.10.25 19:28:33 MSK)

Ссылка

Ответ на: комментарий от etwrq 11.10.25 09:14:04 MSK

Ты сказал, что всё давно посчитано. Где результаты этих расчётов?

question4 ★★★★★
(11.10.25 19:29:30 MSK)

Ответ на: комментарий от Somebody 11.10.25 14:58:54 MSK

… но не очень нужно… ;) :))

Думаю, ненужные точки и скобки будет хорошо сжимать.

dataman ★★★★★
(12.10.25 11:10:39 MSK) автор топика

Ответ на: комментарий от firkax 11.10.25 10:12:53 MSK

zstd скоро объявят устаревшим и выкинут отовсюду

Не выкинут, это же RFC 8878.

заменив этим

🤬

Эта технология лучше всего подходит для данных, которые можно описать и структурировать. Она не предназначена для сжатия произвольных или случайных файлов из Интернета.

dataman ★★★★★
(12.10.25 11:21:47 MSK) автор топика

Ссылка

Ответ на: комментарий от CrX 10.10.25 17:02:30 MSK

крч, компрессия с помощью ии

~~ext4~~
(12.10.25 11:26:32 MSK)

Ссылка

Ответ на: комментарий от question4 11.10.25 03:10:22 MSK

Аналогично с PNG/JPG/GIF с deflate/Huffman/LZW.

Если они улучшат возможности SDDL до возможностей Kaitai Struct. Вот, например, png: https://formats.kaitai.io/png/.

dataman ★★★★★
(12.10.25 11:31:01 MSK) автор топика

Ответ на: комментарий от dataman 12.10.25 11:10:39 MSK

Думаю, ненужные точки и скобки будет хорошо сжимать.

Софтина не должна решать, что в сжимаемом файле «нужно», а что «не нужно». А то нарешает...

Somebody ★★★★
(12.10.25 12:35:16 MSK)
Последнее исправление: Somebody 12.10.25 12:36:00 MSK (всего исправлений: 1)

Ответ на: комментарий от Somebody 12.10.25 12:35:16 MSK

Как и юзеры решать за всех, что им не нужно.

dataman ★★★★★
(12.10.25 12:49:33 MSK) автор топика

Ответ на: комментарий от dataman 12.10.25 12:49:33 MSK

Юзеры не решают «за всех». Они решают за себя, когда работают со своими файлами.

Somebody ★★★★
(12.10.25 13:37:42 MSK)

Ссылка

Ответ на: комментарий от dataman 10.10.25 17:31:40 MSK

Наконец-то можно писать «Не zli меня».

Наконец-то появилось чистое, открытое и свободное zlo!

tiinn ★★★★★
(13.10.25 07:10:37 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Python 3.14

Open Source

Вышел LMDE 7

→

Похожие темы