Zstandard 1.5.4

0

2

После более года разработки и 650 коммитов состоялся выпуск 1.5.4 библиотеки быстрого сжатия данных и консольной утилиты Zstandard.

Улучшение производительности:

на 20% ускорена декомпрессия Хаффмана для архитектур, не имеющих реализации на ассемблере;
ускорение до 10% потоковой компрессии для уровней сжатия 1-2;
ускорение на 4-13% для уровней сжатия 5-12;
3-11% ускорения компрессии для архитектуры arm;
5-30% ускорения компрессии со словарём для уровней сжатия 1-4;
улучшена производительность ввода/вывода консольной утилиты zstd.

Изменения API:

удалено несколько расширенных экспериментальных функций;
поддержка декомпрессии «на месте»;
добавлена поддержка внешних поставщиков последовательностей;

Другие изменения:

улучшен man, с более детальным описанием режима --train;
увеличена производительность утилиты генерации однофайлового исходного текста;
множество улучшений в скриптах сборки;
улучшения консольной утилиты zstd.

>>> Подробности

Ссылка

←	«Окуляр ГОСТ» 21.11.70.22

CADBase — цифровая платформа для обмена 3D-моделями и чертежами

→

← 1 2 →

Отдельно упомяну о проекте Kanzi: C++, Go, Java.

dataman ★★★★★
(10.02.23 17:15:18 MSK) автор топика

Ответ на: комментарий от dataman 10.02.23 17:15:18 MSK

может отдельной мини-новостью?
вроде выглядит интересно

etwrq ★★★★★
(10.02.23 18:50:44 MSK)

Ответ на: комментарий от etwrq 10.02.23 18:50:44 MSK

Написать-то новость не трудно, но может быть дождаться очередного мини-релиза (прошлый был полгода назад)?

Или могу в Development тиснуть.

dataman ★★★★★
(10.02.23 19:04:41 MSK) автор топика

А LZ4 все равно побыстрее будет.

windows10 ★★★★★
(10.02.23 19:18:29 MSK)

Ответ на: комментарий от dataman 10.02.23 19:04:41 MSK

Думаю стоит в мини-новости упомянуть - многие не знают об этом проекте, как я. Спасибо dataman за то, что он обратил внимание на него.

drfaust ★★★★★
(10.02.23 20:19:27 MSK)

Ответ на: комментарий от windows10 10.02.23 19:18:29 MSK

«Да будет срач !!!» - объявил «рогатый аватар».

drfaust ★★★★★
(10.02.23 20:21:39 MSK)

Ответ на: комментарий от windows10 10.02.23 19:18:29 MSK

А PAQ8 сожмёт получше.

peregrine ★★★★★
(10.02.23 20:37:29 MSK)

Ответ на: комментарий от windows10 10.02.23 19:18:29 MSK

на /dev/random?

etwrq ★★★★★
(10.02.23 20:37:57 MSK)

Ответ на: комментарий от drfaust 10.02.23 20:19:27 MSK

многие не знают об этом проекте

Ну, учитывая, что некоторые дистры (арч, юбунта…) уже с 2020/21 перешли на сжатие пакетов в zstd… )

Ссылка1
Ссылка2

krasnh ★★★★★
(10.02.23 20:42:53 MSK)

Ответ на: комментарий от etwrq 10.02.23 20:37:57 MSK

на /dev/random?

Нет, на распаковке свежескомпиленного ведра, тащемта.

windows10 ★★★★★
(10.02.23 20:48:58 MSK)

Ответ на: комментарий от peregrine 10.02.23 20:37:29 MSK

А PAQ8 сожмёт получше.

Наверное, осталось дело за малым - пропяхнуть это в апстрим.

windows10 ★★★★★
(10.02.23 20:49:38 MSK)

Ответ на: комментарий от drfaust 10.02.23 20:21:39 MSK

«Да будет срач !!!» - объявил «рогатый аватар».

Почему же срач ? Вполне себе критика. Пример чуть выше указал - ядро и модули. В этом случае критична именно скорость распаковки, а не коэффициент сжатия или скорость сжатия.

В моем случае, мне 2 секунды важнее чем 2 мегабайта.

windows10 ★★★★★
(10.02.23 20:53:07 MSK)

Ответ на: комментарий от krasnh 10.02.23 20:42:53 MSK

Я хоть и арчевод, но как-то не заморачивался с тем, чем жмёт пакет арч...

Единственное, что я помню, так это xz на фряхе.

drfaust ★★★★★
(10.02.23 20:53:44 MSK)

Ссылка

Ответ на: комментарий от windows10 10.02.23 20:49:38 MSK

Оно уже, правда жать будет до-о-о-о-лго.

peregrine ★★★★★
(10.02.23 20:53:52 MSK)

Ссылка

Ответ на: комментарий от windows10 10.02.23 20:48:58 MSK

свежескомпиленного ведра

рандомные блобы, практически тот же самый /dev/random, не?

etwrq ★★★★★
(10.02.23 20:54:51 MSK)

Ответ на: комментарий от krasnh 10.02.23 20:42:53 MSK

Имелась в виду малоизвестность kanzi.

dataman ★★★★★
(10.02.23 20:56:28 MSK) автор топика

Ссылка

Ответ на: комментарий от etwrq 10.02.23 20:54:51 MSK

рандомные блобы, практически тот же самый /dev/random, не?

Я не знаю. Просто отношусь ко всему как тупая блондинка. Я ж «работаю» не с /dev/random, а с файлами. Если технология №1 распаковывает мои файлы быстрее технологии №2, то я выбираю первую технологию =)

windows10 ★★★★★
(10.02.23 20:57:07 MSK)

Ответ на: комментарий от windows10 10.02.23 20:57:07 MSK

dd if=/dev/random bs=100M of=testfile count=1 разве не делает файл?
что ты такое?!

etwrq ★★★★★
(10.02.23 20:58:43 MSK)

Ответ на: комментарий от dataman 10.02.23 17:15:18 MSK

Го-либа позорище то ещё, каэш.

Joe_Bishop ★
(10.02.23 20:59:37 MSK)

Ответ на: комментарий от etwrq 10.02.23 20:58:43 MSK

dd if=/dev/random bs=100M of=testfile count=1 разве не делает файл?
что ты такое?!

Какая мне разница что делает твой dd if\of?

windows10 ★★★★★
(10.02.23 21:08:44 MSK)

Ответ на: комментарий от windows10 10.02.23 21:08:44 MSK

ну из man dd:
утрированно:
согласно опциям оно делает копию данных из устройства /dev/random с размером блока данных 100 мегабайт, в количестве 1 блока в выходной файл testfile в текущей директории

etwrq ★★★★★
(10.02.23 21:11:54 MSK)

Ответ на: комментарий от etwrq 10.02.23 21:11:54 MSK

Это понятно, но что твой /dev/random делает в теме про zst и в ответе на коммент о распаковке ядра ?

windows10 ★★★★★
(10.02.23 21:13:58 MSK)

Ответ на: комментарий от windows10 10.02.23 21:13:58 MSK

генерирует псевдослучайные данные для архиватора, который их архивирует и показывает оптимизацию алгоритмов, скорость сжатия и итоговый размер.
а ты зачем сюда пишешь?

etwrq ★★★★★
(10.02.23 21:17:13 MSK)

А это вообще законно? Если вы понимаете о чём я (а вы понимаете)…

perl5_guy ★★★★★
(10.02.23 21:26:36 MSK)

Ссылка

Ответ на: комментарий от etwrq 10.02.23 21:17:13 MSK

генерирует псевдослучайные данные для архиватора, который их архивирует и показывает оптимизацию алгоритмов, скорость сжатия и итоговый размер.

Зачем мне псевдослучайные данные, если я их не использую ?

Не усложняй.

windows10 ★★★★★
(10.02.23 21:32:38 MSK)

Ссылка

Чем оно лучше WinRar?

~~Udacha~~
(10.02.23 23:15:22 MSK)

Ответ на: комментарий от Udacha 10.02.23 23:15:22 MSK

Стивен Кинг интересуется, «Оно» или «Оно-2»?

dataman ★★★★★
(10.02.23 23:23:58 MSK) автор топика

Ответ на: комментарий от dataman 10.02.23 23:23:58 MSK

Только «Оно», только фильм 2017го года!

~~Udacha~~
(10.02.23 23:26:47 MSK)

Ссылка

Ответ на: комментарий от krasnh 10.02.23 20:42:53 MSK

Ещё Fedora: https://fedoraproject.org/wiki/Changes/Switch_RPMs_to_zstd_compression

Ja-Ja-Hey-Ho ★★★★★
(11.02.23 00:07:21 MSK)

Ссылка

Ответ на: комментарий от etwrq 10.02.23 21:17:13 MSK

генерирует псевдослучайные данные для архиватора, который их архивирует и показывает оптимизацию алгоритмов, скорость сжатия и итоговый размер.

Качественно сгенерированные случайные данные несжимаемы.

annulen ★★★★★
(11.02.23 02:15:16 MSK)

Ответ на: комментарий от windows10 10.02.23 20:53:07 MSK

Пример чуть выше указал - ядро и модули. В этом случае критична именно скорость распаковки, а не коэффициент сжатия или скорость сжатия.

А время чтения архива с диска ты учёл?

Если ты в самом деле оптимизируешь миллисекунды при загрузке (а не просто чешешь языком), то твоя целевая функция — это (archive size / read performance) + decompression time, а не просто decompression time.

В моем случае, мне 2 секунды важнее чем 2 мегабайта.

Прости, а сколько гигабайт у тебя занимают «ядро и модули», что между LZ4 и Zstd 2 секунды разницы на декомпрессии?

intelfx ★★★★★
(11.02.23 03:24:35 MSK)
Последнее исправление: intelfx 11.02.23 03:47:56 MSK (всего исправлений: 3)

Ответ на: комментарий от intelfx 11.02.23 03:24:35 MSK

Ну так чем сильнее сжатие -> тем меньшего размера файл -> тем быстрее он должен считываться с диска.

Учитывая что у меня NVMe, думаю что временем чтения архива можно пренебречь. Конечный размер ядра я не замерял, но думаю там порядка 9-10 мегабайт, плюс-минус.

Ты слишком буквально воспринял фразу про 2 секунды и 2 мегабайта, ее смысл не в цифре «2», а в том что время распаковки важнее чем экономия места на разделе.

Кстати.

#!/bin/bash
rm -f test*
rm -rf /dev/shm/*
echo "Creating test file"
dd if=/dev/random of=test bs=1M count=32
echo "Creating archives"
zstd test -o test.zst > /dev/null
zip test.zip test > /dev/null
tar -czvf test.tar.gz test > /dev/null
xz -zk test > /dev/null
lz4 test
lzma test
echo "=====ZSTD====="
time zstd -d test.zst -o /dev/shm/test1 > /dev/null
echo "====ZIP===="
time unzip test.zip -d /dev/shm/test2/ > /dev/null
echo "====TARGZ===="
mkdir /dev/shm/test3
time tar -xvf test.tar.gz -C /dev/shm/test3/ > /dev/null
echo "=====LZ4====="
time lz4 -d test.lz4 /dev/shm/test4 > /dev/null
echo "=====LZMA====="
time lzma -df test.lzma > /dev/null
echo "=====XZ====="
time xz -df test.xz > /dev/null

На 32-мегабайтном файле, на высокоскоростном носителе, у меня распаковка ZST занимает 172мс, распаковка LZ4 занимает 39мс. Размер архивов одинаковый.

windows10 ★★★★★
(11.02.23 05:24:58 MSK)

Ответ на: комментарий от windows10 11.02.23 05:24:58 MSK

Ты понимаешь, что сжатие рандома - это бред, который ничего не оценивает?

В настоящем случае разница будет в размере занимаемого файла. Потому что большинство реальных данных в отличие от рандома - сжимаемые. И вот взяв данные, актуальные для твоей задачи надо уже оценивать что будет больше и что быстрее.

Scondo ★
(11.02.23 07:35:08 MSK)

Ответ на: комментарий от etwrq 10.02.23 20:58:43 MSK

Да пофиг. Белый шум жать смысла нет.

thegoldone ★★
(11.02.23 07:35:25 MSK)

Ссылка

Ответ на: комментарий от Joe_Bishop 10.02.23 20:59:37 MSK

Раскройте мысль, пожалуйста.

thegoldone ★★
(11.02.23 07:36:30 MSK)

Ответ на: комментарий от intelfx 11.02.23 03:24:35 MSK

Вы верно сказали. Но только чтение с диска можно не учитывать. Если работа по сети, тогда возможно размер будет что-то решать. Зависит. И нужно будет решать это уравнение.

thegoldone ★★
(11.02.23 07:43:02 MSK)

Ответ на: комментарий от windows10 11.02.23 05:24:58 MSK

Этот тест некорректен, так как отсутствует очистка кэша ФС после каждой распаковки. Когда грузится ОС, ядро распаковывается только один раз, и никакого кэша еще нет.

annulen ★★★★★
(11.02.23 07:54:28 MSK)

Ответ на: комментарий от thegoldone 11.02.23 07:43:02 MSK

Но только чтение с диска можно не учитывать.

Почему? Если носитель медленный или CPU очень быстрый, размер сжатого файла вносит больший вклад во время его чтения, чем скорость работы алгоритма декомпрессии.

annulen ★★★★★
(11.02.23 07:57:40 MSK)

Ответ на: комментарий от annulen 11.02.23 07:57:40 MSK

На практике, чтением с диска всегда можно пренебречь. Либо это случай, когда носитель действительно медленный.

Во втором случае решение проблемы скорости работы не в выборе алгоритма сжатия, а в замене оборудования.

thegoldone ★★
(11.02.23 08:17:57 MSK)

Ответ на: комментарий от thegoldone 11.02.23 08:17:57 MSK

Во втором случае решение проблемы скорости работы не в выборе алгоритма сжатия, а в замене оборудования.

То есть если проц настолько быстрый, что распаковывает lz4 быстрее, чем nvme успевает считывать данные, то нужно не менять алгоритм сжатия на более эффективный, а ставить еще более быстрый носитель? Ясно-понятно.

annulen ★★★★★
(11.02.23 08:47:12 MSK)

Ответ на: комментарий от thegoldone 11.02.23 08:17:57 MSK

На практике, чтением с диска всегда можно пренебречь.

А вот этим нельзя пренебречь?

«На 32-мегабайтном файле, на высокоскоростном носителе, у меня распаковка ZST занимает 172мс, распаковка LZ4 занимает 39мс»

greenman ★★★★★
(11.02.23 08:58:00 MSK)

Ответ на: комментарий от krasnh 10.02.23 20:42:53 MSK

уже с 2020/21 перешли

сразу медленней стало - вам на ваших ssd этого не видать, а я на своих ide шлейфовых винтарях такое сразу заметил и теперь debian грузится быстрее чем arch на одном и том же железе, а раньше было наоборот.

amd_amd ★★★★★
(11.02.23 09:02:45 MSK)

Ссылка

Ответ на: комментарий от Scondo 11.02.23 07:35:08 MSK

Ты понимаешь, что сжатие рандома - это бред, который ничего не оценивает?

При чем здесь сжатие, если замеряется время расжатия ?

В настоящем случае разница будет в размере занимаемого файла.

В настоящем случае разницы нет, поскольку через алгоритм прогоняется один и тот же объем данных, который так же само кодируется, просто данные не обладающие свойством избыточности, кодируются один к одному.

windows10 ★★★★★
(11.02.23 09:02:53 MSK)

Ответ на: комментарий от annulen 11.02.23 07:54:28 MSK

Этот тест некорректен, так как отсутствует очистка кэша ФС после каждой распаковки. Когда грузится ОС, ядро распаковывается только один раз, и никакого кэша еще нет.

В смысле некорректен ? Запусти скрипт из shm или из tmpfs, и скорость ФС у тебя будет равна скорости кеша, делов-то. Даже если с кешем - тем лучше, можно абстрагироваться от скорости носителя.

windows10 ★★★★★
(11.02.23 09:07:14 MSK)

Ответ на: комментарий от windows10 11.02.23 09:07:14 MSK

В смысле некорректен ? Запусти скрипт из shm или из tmpfs, и скорость ФС у тебя будет равна скорости кеша, делов-то. Даже если с кешем - тем лучше, можно абстрагироваться от скорости носителя.

Если цель теста - узнать, с каких алгоритмом сжатия ядро будет быстрее грузиться с диска, то надо наоборот, обойти кэш и читать только с диска.

annulen ★★★★★
(11.02.23 09:10:55 MSK)

Ответ на: комментарий от windows10 11.02.23 09:07:14 MSK

А если цель - сравнить алгоритмы в вакууме, то тут и ежу понятно, что lz4 победит, уступив только чтению несжатого файла.

annulen ★★★★★
(11.02.23 09:13:26 MSK)
Последнее исправление: annulen 11.02.23 09:14:29 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от annulen 11.02.23 09:10:55 MSK

Если цель теста - узнать, с каких алгоритмом сжатия ядро будет быстрее грузиться с диска, то надо наоборот, обойти кэш и читать только с диска.

Тесты с ядром я провел еще раньше чем наваял этот тупой скрипт. Теперь lz4 онли. Я бы вообще ведро не запаковывал, с современными-то скоростями и объемами, но в конфигураторе такой опции нет.

windows10 ★★★★★
(11.02.23 09:15:04 MSK)

Ответ на: комментарий от windows10 11.02.23 09:15:04 MSK

в конфигураторе такой опции нет

В теории опция существует, но зависит от флага HAVE_KERNEL_UNCOMPRESSED, который почему-то включен только для s390

annulen ★★★★★
(11.02.23 09:25:33 MSK)

Ссылка

Ответ на: комментарий от windows10 10.02.23 20:57:07 MSK

...Просто отношусь ко всему как тупая блондинка...
Если технология №1 ... быстрее технологии №2, то я выбираю первую технологию =)

Простите, пожалуйста, это не про Вас анекдот про машинистку, набирающую 1000 знаков в минуту?

AlexM ★★★★★
(11.02.23 10:07:25 MSK)

Ссылка

Ответ на: комментарий от dataman 10.02.23 19:04:41 MSK

Или могу в Development тиснуть.

Тоже вариант.

А если ты им пользуешься и можешь привести пример кода с разбором — можно даже и мини-статью, там оно точно не утонет.

hobbit ★★★★★
(11.02.23 11:44:02 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	«Окуляр ГОСТ» 21.11.70.22

Open Source

CADBase — цифровая платформа для обмена 3D-моделями и чертежами

→

Похожие темы