Библиотека для сжатия данных от Google

google, lzo, opensource, snappy, zlib, архиваторы

0

1

Компания Google опубликовала код библиотеки Snappy, служащей для сжатия и распаковки данных. Snappy не совместима с другими библиотеками, коэффициент сжатия также далёк от рекордных показателй. Вместо этого целью разработки является максимальная скорость работы при сохранении приемлемой степени компрессии. Так, например, для большинства входных данных Snappy оказывается на порядок быстрее, чем Zlib в режиме максимальной скорости, а результирующие файлы на 20-100% больше. На одном ядре процессора Core i7 в 64-битном режиме скорость сжатия составляет более 250 Мб/сек, а распаковки — 500 Мб/сек и больше.

Snappy широко используется во многих сервисах Google — от BigTable и MapReduce до внутренних систем RPC.

Вместе с иходным кодом библиотеки распространяется код теста Snappy для сравнения с некоторыми другими библиотеками, такими как Zlib, LZO, LZF, FastLZ и QuickLZ. Библитека распространяется под лицензией Apache License 2.0.

>>> Подробности

Ссылка

←	Django 1.3 вышел в свет

Вышел KTorrent 4.1

→

← 1 2 3 4 →

Ответ на: комментарий от anonymous 24.03.11 01:36:30 MSK

> на счет второго - толсто. Имеется ввиду 20-100% от размера сжатого файла zlib. Исходный файл: 100 Кб, сжатый zlib'ом: 20 Кб, сжатый snappy: 24-40 Кб, а не 200 Кб. Горе математики, епта... Твой КО

Да ну.. Конечно, для текста так и будет. А что насчет видео или почти случайного набора байт.

КО дорогого КО

~~rtvd~~ ★★★★★
(24.03.11 12:11:45 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.03.11 01:58:02 MSK

>> И всякие трюки вроде записи в память в обход кеша CPU там тоже можно делать столь же дешево и ненапряжно?

Обезьяна.

Приятно познакомиться. А я - homo sapience.

Ты на Python ядро ОС писать собрался, или какие то системные проги - тогда ты полный даун.

Я писать на Python вообще не собрался. А ты, конечно, невменяем. Читай пост, на которых я написал ответ. Там ясно написано «и скоростью исполнения присущей Си», что суть вранье.

Иди убейся.

Хороша команда. Вот зачем вы вслух собой управляете?

И настоящую многопоточность там можно замутить? В C - можно. Тот же POSIX Threads есть. А у вас как с этим обстоят, Свидетели GILа?

А ты какую реализацию и версию Python имеешь ввиду? CPython, PyPy, Stakless Python, Jython, IronPython? Может другую какую? Так что бля, со своими уебищными придирками насчет GIL - иди убейся. Ты бля не можешь отличить интерпретатор один от другого, и только слышал, что на GIL матерятся, а толком в чем проблема, к чему относится, и где решена - не знаешь.

Я имею в виду CPython, о котором идет речь в посте выше, алкашик ты наш. Свой бред про придирки и GIL лучше оставь себе, если нечего сказать по существу.

~~rtvd~~ ★★★★★
(24.03.11 12:19:04 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 24.03.11 02:10:59 MSK

>>И настоящую многопоточность там можно замутить? В C - можно.

Что-то тесты на сайте блала.дебиан.орг показывают обратное - в многопоточных задачах си жестко сосет по сравнению с тем же с++

Alioth? Там задачи на не настоящую многопоточность. Разницу между полноценной многопоточностью, использующей много CPU и легковесной, где используется только один, но зато переброска данных между потоками очень дешевая вам понятна?

~~rtvd~~ ★★★★★
(24.03.11 12:21:46 MSK)

Ответ на: комментарий от rtvd 24.03.11 12:21:46 MSK

Да, да, понятна - http://shootout.alioth.debian.org/u32/benchmark.php?test=binarytrees&lang=gcc

N CPU secs Elapsed secs Memory KB Code B ≈ CPU Load
12 0.02 0.03 ? 850 0% 0% 0% 100%
16 0.58 0.58 4,620 850 0% 0% 2% 100%
20 12.10 12.11 99,400 850 0% 0% 0% 100%

DNA_Seq ★★☆☆☆
(24.03.11 12:36:10 MSK)

Ссылка

Ответ на: комментарий от rtvd 24.03.11 12:21:46 MSK

хотя ситуация оказывается еще страшнее чем думал - http://shootout.alioth.debian.org/u32/performance.php?test=knucleotide

Здесь си в четыре раза тормознее с++ при то что в обоих случаях используется только один процессор

DNA_Seq ★★☆☆☆
(24.03.11 12:38:52 MSK)

Ответ на: комментарий от Reset 24.03.11 11:17:51 MSK

8129 - забавный magic number. Специально для торможения на втором и последующих вызовах fread сделан? 8192 - правильный размерчик.

anonymous
(24.03.11 12:53:54 MSK)

Ответ на: комментарий от eveel 24.03.11 11:12:16 MSK

> Интересный результат. Не в ключах ли компиляции дело?

Результат примерно такой, какой обещал гугль:

lzop: 130.3MB/s avg
snappy: 170.1MB/s avg

Кроме того, меня напряг постоянный вызов output.resize в теле цикла.

Manhunt ★★★★★
(24.03.11 12:59:14 MSK)

Ответ на: комментарий от Reset 24.03.11 11:17:51 MSK

Попробуй заменить

output.resize(snappy::MaxCompressedLength(bytes));

на

output.resize(snappy::MaxCompressedLength(sizeof(buf)+1));

и вообще поставить эту строчку перед оператором while.

Manhunt ★★★★★
(24.03.11 13:00:41 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.03.11 12:53:54 MSK

> 8129 - забавный magic number. Специально для торможения на втором и последующих вызовах fread сделан? 8192 - правильный размерчик.

Точно. Я это проморгал.

Manhunt ★★★★★
(24.03.11 13:05:27 MSK)

Ссылка

Ответ на: комментарий от Manhunt 24.03.11 12:59:14 MSK

Кроме того, меня напряг постоянный вызов output.resize в теле цикла

он ничего не делает, в данном случае на скорости это не скажется

Reset ★★★★★
(24.03.11 13:06:08 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 11:38:52 MSK

> то что lzo в два раза меньше тоже результат ключей? ;)

В смысле, файл меньше? Пусть у LZO файл меньше, суть не в этом, я говорю про быстродействие.

Для стерильной чистоты эксперимента можно попробовать собрать Snappy с теми же ключами, что и lzop в дистрибутиве.

~~eveel~~ ★★
(24.03.11 13:07:54 MSK)

Ответ на: комментарий от Reset 24.03.11 13:06:08 MSK

> он ничего не делает

Обоснуй.

в данном случае на скорости это не скажется

И размер буфера поправь.

Manhunt ★★★★★
(24.03.11 13:08:11 MSK)

Ответ на: комментарий от anonymous 24.03.11 12:53:54 MSK

Да, описался. 8129/8192 на скорости не влияют, а вот если поставить 81920 то получаем 190M/s

Reset ★★★★★
(24.03.11 13:08:17 MSK)

Ответ на: комментарий от Reset 24.03.11 13:08:17 MSK

> а вот если поставить 81920 то получаем 190M/s

А размер сжатого файла какой становится?

Manhunt ★★★★★
(24.03.11 13:09:27 MSK)

Ответ на: комментарий от Manhunt 24.03.11 13:08:11 MSK

Обоснуй.

Переаллокация происходит только если новый размер больше текущего capacity. А убирание лишнего if'а на скорости никак не сказывается.

Reset ★★★★★
(24.03.11 13:09:34 MSK)

Ответ на: комментарий от Manhunt 24.03.11 13:09:27 MSK

$ ls -s big-file.snappy 
809380 big-file.snappy

Дальнейшее увеличение буфера ни к чему не приводит.

Reset ★★★★★
(24.03.11 13:10:13 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 24.03.11 12:38:52 MSK

>си в четыре раза тормознее с++

Здесь asm в 4 раза тормознее асма, так чтоль?

devl547 ★★★★★
(24.03.11 13:11:08 MSK)

Ответ на: комментарий от Reset 24.03.11 13:09:34 MSK

      void
      resize(size_type __new_size, value_type __x = value_type())
      {
        if (__new_size < size())
          _M_erase_at_end(this->_M_impl._M_start + __new_size);
        else
          insert(end(), __new_size - size(), __x);
      }

Manhunt ★★★★★
(24.03.11 13:13:16 MSK)

Ответ на: комментарий от Manhunt 24.03.11 13:13:16 MSK

Ну и ? У нас __new_size - size() == 0. Да даже если не ноль, то у нас вектор из char'ов, поэтому эти все erase/insert будут выполняться o(время сжатия).

Reset ★★★★★
(24.03.11 13:17:49 MSK)

Ответ на: комментарий от devl547 24.03.11 13:11:08 MSK

>Здесь asm в 4 раза тормознее асма, так чтоль?

с какой стати си это ассемблер? Ассемблер:
1) однозначно транслируется в машинный код
2) уникален для каждого процессора

DNA_Seq ★★☆☆☆
(24.03.11 13:18:38 MSK)

Ответ на: комментарий от devl547 24.03.11 13:11:08 MSK

а то что на си такие корявые операторы и так неудобно писать это не следствие его низкоуровневости, это следствие 48 килобайт оперативки на PDP-11

DNA_Seq ★★☆☆☆
(24.03.11 13:20:13 MSK)

Ответ на: комментарий от eveel 24.03.11 13:07:54 MSK

>Пусть у LZO файл меньше, суть не в этом, я говорю про быстродействие.

И толку от быстродействия если размер сжатого файла почти равен размеру исходного?

DNA_Seq ★★☆☆☆
(24.03.11 13:21:53 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 13:20:13 MSK

>на си такие корявые операторы и так неудобно писать

Мне на плюсах сильно сложнее писать, чем на plain C

devl547 ★★★★★
(24.03.11 13:22:15 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 24.03.11 13:18:38 MSK

>с какой стати си это ассемблер?

gcc же!

devl547 ★★★★★
(24.03.11 13:22:56 MSK)

Ответ на: комментарий от devl547 24.03.11 13:22:56 MSK

>gcc же!

компилятор и ассемблер понятия несовместимые. Ассемблер это сборщик, компилятор - перекомпоновщик. Разницу улавливаем?

DNA_Seq ★★☆☆☆
(24.03.11 13:24:40 MSK)

Ответ на: комментарий от Reset 24.03.11 13:17:49 MSK

> У нас __new_size - size() == 0.

Очень сомневаюсь.

поэтому эти все erase/insert будут выполняться o(время сжатия)

Вместо того, чтобы спорить, лучше вынести resize за while и проверить на практике. Там все что угодно может быть. Например, засирание instruction cache развернутым циклом insert-а, засирание предсказателя переходов.

Manhunt ★★★★★
(24.03.11 13:24:48 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 13:21:53 MSK

> И толку от быстродействия если размер сжатого файла почти равен размеру исходного?

В три с гаком раза меньше исходного: 809380 против 2590932

Manhunt ★★★★★
(24.03.11 13:26:48 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 24.03.11 13:24:40 MSK

>Разницу улавливаем?

Ты понял, что я хотел сказать.

devl547 ★★★★★
(24.03.11 13:27:46 MSK)

Ответ на: комментарий от Manhunt 24.03.11 13:24:48 MSK

Очень сомневаюсь.

Это всегда так, кроме последней итерации цикла, на которой сработает erase.

Вместо того, чтобы спорить, лучше вынести resize за while и проверить на практике. Там все что угодно может быть. Например, засирание instruction cache развернутым циклом insert-а, засирание предсказателя переходов.

Всего чего угодно там нет, там всё очевидно. resize я вынес, и, как и ожидалось, на скорость это никак не повлияло.

Reset ★★★★★
(24.03.11 13:27:55 MSK)

Ответ на: комментарий от Reset 24.03.11 13:27:55 MSK

Ок. И спасибо за тест :)

Manhunt ★★★★★
(24.03.11 13:29:35 MSK)

Ссылка

Ответ на: комментарий от devl547 24.03.11 13:27:46 MSK

то есть ассемблером являются также фортран, паскаль и еще туева хуча зыков поддерживаемых gcc? =)) Плюсы компилирует не gcc а g++

DNA_Seq ★★☆☆☆
(24.03.11 13:29:47 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 13:29:47 MSK

>ассемблером

К словам то не придирайся)

Плюсы компилирует не gcc а g++

Оптимизатор у них вроде общий, не?

devl547 ★★★★★
(24.03.11 13:31:27 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 24.03.11 12:38:52 MSK

> Здесь си в четыре раза тормознее с++ при то ...

ну прям дет.сад. «один язык» на разных программах сравнивают... )))

mrs
(24.03.11 13:32:15 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 13:21:53 MSK

> И толку от быстродействия если размер сжатого файла почти равен размеру исходного?

Файл, сжатый Snappy, весит в два раза меньше, чем исходный файл в примере от Reset. Всё ещё возникает желание утверждать, что его размер почти равен размеру исходного? :)

~~eveel~~ ★★
(24.03.11 13:32:32 MSK)

Ответ на: комментарий от eveel 24.03.11 13:32:32 MSK

> Файл, сжатый Snappy, весит в два раза меньше, чем исходный файл в примере от Reset.

В три.

Manhunt ★★★★★
(24.03.11 13:33:16 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 11:36:36 MSK

>> Если бы выложили под совместимой с GPL лицензией

то его можно было бы использовать в ведре чего они видимо не хотят. Не жди от гнилой конторы благородных поступков.

Линус мог бы не выпендриваться и перевести ядро на GPL v3. Как велел Бородатый.

Manhunt ★★★★★
(24.03.11 13:39:22 MSK)

Ответ на: комментарий от Manhunt 24.03.11 13:33:16 MSK

> В три.

В два с половиной!

~~eveel~~ ★★
(24.03.11 14:20:46 MSK)

Ответ на: комментарий от eveel 24.03.11 14:20:46 MSK

> В два с половиной!

809380 против 2590932 - это в 3.2 раза.

Manhunt ★★★★★
(24.03.11 14:45:12 MSK)

Ссылка

Ответ на: комментарий от Manhunt 24.03.11 13:39:22 MSK

>Как велел Бородатый.

Если бы Линус не умел думать своей головой он бы и не линукс написал а очередною недоделку на микроядре. И жда ли бы GNU до сих пор, ну может ядро FreeBSD записили бы в GNU но без Linux'а GNU вообще никому нафиг не упал кроме кучки фанатиков

DNA_Seq ★★☆☆☆
(24.03.11 15:04:49 MSK)

Ответ на: комментарий от mrs 24.03.11 13:32:15 MSK

>«один язык» на разных программах сравнивают... )))

исходники в тестах приведены

DNA_Seq ★★☆☆☆
(24.03.11 15:06:15 MSK)

Ответ на: комментарий от eveel 24.03.11 13:32:32 MSK

>Файл, сжатый Snappy, весит в два раза меньше, чем исходный файл в примере от Reset.

Что за файл-то? Не верю. lzo то так не сожмет, процентов 30 в лучшем случае (например lzo-сжатие оперативки позволяет выиграть «всего» 10-18%), а тут lzo еще плотнее упаковало

DNA_Seq ★★☆☆☆
(24.03.11 15:08:29 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 15:04:49 MSK

Вот и нечего на гугл пинять, коли рожа крива.

Manhunt ★★★★★
(24.03.11 15:09:05 MSK)

Ответ на: комментарий от Manhunt 24.03.11 15:09:05 MSK

>Вот и нечего на гугл пинать.

Как раз создается впечатление что они как в случае с zfs специально такую лицензию выбрали чтоб в ведро запихнуть нельзя было. Ведь Linux уже 20 лет как существует, а этой поделке наврядли больше пары лет, а лицензию буквально позавчера для нее выбрали

DNA_Seq ★★☆☆☆
(24.03.11 15:11:04 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 15:08:29 MSK

Почему не веришь-то? Легкосжимаемый файл - только и всего.

Manhunt ★★★★★
(24.03.11 15:12:05 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 15:11:04 MSK

Так и апачу не первый год уже. И проблеме с совместимостью лицензий тоже. Проблема устранена в GPLv3, но торвальду на всё посрать, верно?

Manhunt ★★★★★
(24.03.11 15:13:05 MSK)

Ответ на: комментарий от Manhunt 24.03.11 15:12:05 MSK

На разных типах данных разные упаковщики показывают себя совершенно по разному. Скажем для текста за PPPMd никто не угонится ни по скорости ни по сжатию

DNA_Seq ★★☆☆☆
(24.03.11 15:15:49 MSK)

Ссылка

Ответ на: комментарий от Manhunt 24.03.11 15:13:05 MSK

>Так и апачу не первый год уже.

давно апач в линукс-ядре?

DNA_Seq ★★☆☆☆
(24.03.11 15:16:12 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 12:38:52 MSK

> Да, да, понятна - http://shootout.alioth.debian.org/u32/benchmark.php?test=binarytrees&lang=gcc

1. binary trees не имеет никакого отношения к многопоточности, о которой шла речь.

2. по результатам shootout, cpython сливает обычному С на порядок. Причем и по потребряемой памяти и по скорости работы.

Так что мне уже совсем непонятно что Вы хотите сказать.

~~rtvd~~ ★★★★★
(24.03.11 15:21:17 MSK)

Ответ на: комментарий от rtvd 24.03.11 15:21:17 MSK

>1. binary trees не имеет никакого отношения к многопоточности, о которой шла речь.

это легко распараллеливаемая задача. cpython как раз оптимизирован для подобных задач

cpython сливает обычному С на порядок. Причем и по потребряемой памяти и по скорости работы.

а по скорости разработки? ;) Надо решить задачу а не дрочить на такты. Некоторые программы вообще пишутся для единственного расчета. И пусть для подобных программ лучше кодер работает час и программа выполняется 10 часов чем наоборот

DNA_Seq ★★☆☆☆
(24.03.11 15:24:50 MSK)

Ответ на: комментарий от DNA_Seq 24.03.11 15:16:12 MSK

> давно апач в линукс-ядре?

Видимо, гуглу хочется, чтобы эту компрессию задвинули в Apache Hadoop. Там лицензия Apache License 2.0. А до закидонов торвальдса им дела нет.

Manhunt ★★★★★
(24.03.11 15:25:39 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

←	Django 1.3 вышел в свет

Open Source

Вышел KTorrent 4.1

→

Похожие темы