Библиотека для сжатия данных от Google

google, lzo, opensource, snappy, zlib, архиваторы

0

1

Компания Google опубликовала код библиотеки Snappy, служащей для сжатия и распаковки данных. Snappy не совместима с другими библиотеками, коэффициент сжатия также далёк от рекордных показателй. Вместо этого целью разработки является максимальная скорость работы при сохранении приемлемой степени компрессии. Так, например, для большинства входных данных Snappy оказывается на порядок быстрее, чем Zlib в режиме максимальной скорости, а результирующие файлы на 20-100% больше. На одном ядре процессора Core i7 в 64-битном режиме скорость сжатия составляет более 250 Мб/сек, а распаковки — 500 Мб/сек и больше.

Snappy широко используется во многих сервисах Google — от BigTable и MapReduce до внутренних систем RPC.

Вместе с иходным кодом библиотеки распространяется код теста Snappy для сравнения с некоторыми другими библиотеками, такими как Zlib, LZO, LZF, FastLZ и QuickLZ. Библитека распространяется под лицензией Apache License 2.0.

>>> Подробности

Ссылка

← Django 1.3 вышел в свет

Вышел KTorrent 4.1 →

← 1 2 3 4 →

Правильно. Увидел на опеннете - запили свой вариант на ЛОР.

Manhunt ★★★★★
(23.03.11 15:10:38 MSK)

Ответ на: комментарий от Manhunt 23.03.11 15:10:38 MSK

Правильно. Увидел на опеннете - запили свой вариант на ЛОР.

Конечно правильно - опеннет я не читаю, а мнения посмотреть охота.

Ximen ★★★★
(23.03.11 15:12:07 MSK) автор топика

Ссылка

Даешь упакованый энторнет!

polym ★
(23.03.11 15:17:08 MSK)

Ответ на: комментарий от polym 23.03.11 15:17:08 MSK

Даешь упакованый энторнет!

А я сразу подумал, что, наверное, для фс оно подходит больше.

Ximen ★★★★
(23.03.11 15:22:00 MSK) автор топика

Ответ на: комментарий от Ximen 23.03.11 15:22:00 MSK

Ну гугл у меня пока еще ассоцииируется с интернетом. Хотя идея «упакованного» интернета сейчас не актуальна. Быстрый своп...

polym ★
(23.03.11 15:25:30 MSK)

Ответ на: комментарий от polym 23.03.11 15:25:30 MSK

Хотя идея «упакованного» интернета сейчас не актуальна.

Ну да. Торренты и так зажатые, а всё остальное уже не тормозит :)

Ximen ★★★★
(23.03.11 15:29:26 MSK) автор топика

Ответ на: комментарий от Ximen 23.03.11 15:29:26 MSK

О свопе это.. пардон, в общем, я сегодня особые тупости могу сказать)

Там где хранят большие обьемы информации и где скорость фс не критична эта штуковина действительно очень сильно пригодится. То есть, уже пригодилась, но пока только гуглю.

polym ★
(23.03.11 16:16:18 MSK)

Ссылка

>не совместима

коэффициент сжатия также далёк

Так, например, для большинства входных данных Snappy оказывается на порядок быстрее, чем Zlib в режиме максимальной скорости, а результирующие файлы но 20% - 100% больше

конкурент LZO ? иначе что-то малоинтересное получается... сравнение бы

zlib - snappy - lzo

Sylvia ★★★★★
(23.03.11 16:18:48 MSK)

Ссылка

>Вместо этого целью разработки является максимальная скорость работы при сохранении приемлемого сжатия.
Сравнение с gzip в студию!

fractaler ★★★★★
(23.03.11 16:30:43 MSK)

Ждём реализации в железе с упаковкой траффика данных между
процессором и памятью и процессором и периферией :))

sS ★★★★★
(23.03.11 16:31:19 MSK)

Прикольно, гугл молодцы

yoghurt ★★★★★
(23.03.11 16:32:46 MSK)

Ссылка

Ждем нытиков, которые будут вопить про богомерзкий C++, лучше бы на С, и что либо из-за этого не впихнуть в ядро и ембеддовку.

anonymous
(23.03.11 16:33:16 MSK)

Нет ничего быстрее -mx=0

Jayrome ★★★★★
(23.03.11 16:34:47 MSK)

Ответ на: комментарий от anonymous 23.03.11 16:33:16 MSK

С костылей на Си нетрудно будет переписать скорее всего.

quantum-troll ★★★★★
(23.03.11 16:35:34 MSK)

>Snappy оказывается на порядок быстрее, чем Zlib в режиме максимальной скорости, а результирующие файлы но 20% - 100% больше
Это значит по степени сжатия до Zlib он не дотягивает?

dkBrazz
(23.03.11 16:45:14 MSK)

А почему Google так Apache License любят? Она же плохо совместима с GPL. Лучше бы под модифицированной BSDL или MIT License выпускали, где такой проблемы нет.

~~Ttt~~ ☆☆☆☆☆
(23.03.11 16:45:38 MSK)

Ждём новостей: Фороникс провёл сравнительное тестирование Zlib, LZO, Snappy.

pimiento ★
(23.03.11 16:45:42 MSK)

Ответ на: комментарий от quantum-troll 23.03.11 16:35:34 MSK

Мимолётный взгляд на сорцы говорит, что там и так половина на C.
Вообще не понятно зачем были прикручены плюсы.

И да, пусть гугл перепишет на C. На C++ такое не нужно.

mine ★
(23.03.11 16:45:44 MSK)

Ответ на: комментарий от dkBrazz 23.03.11 16:45:14 MSK

На порядок быстрее не годится?

UnnamedUA ★
(23.03.11 16:49:05 MSK)

Ответ на: комментарий от mine 23.03.11 16:45:44 MSK

И да, пусть гугл перепишет на C. На C++ такое не нужно.

Кто-то считает, что гугл ему что-то должен?

Casus ★★★★★
(23.03.11 16:50:16 MSK)

Ссылка

Ответ на: комментарий от pimiento 23.03.11 16:45:42 MSK

победил xz в 8 потоков на их новеньком i7

devl547 ★★★★★
(23.03.11 16:50:56 MSK)

Ссылка

Ответ на: комментарий от UnnamedUA 23.03.11 16:49:05 MSK

>На порядок быстрее не годится?

на какой именно порядок?

devl547 ★★★★★
(23.03.11 16:51:41 MSK)

Ответ на: комментарий от Ttt 23.03.11 16:45:38 MSK

Лучше бы выпускали как общественное достояние, лицензии вроде BSD или MIT не нужны.

quantum-troll ★★★★★
(23.03.11 16:53:26 MSK)

Закопать

Deleted
(23.03.11 16:58:23 MSK)

Ссылка

отличные новости!

mrs
(23.03.11 16:58:36 MSK)

Ссылка

Ответ на: комментарий от devl547 23.03.11 16:51:41 MSK

видимо на 10 раз, на два порядка наврядли.

mrs
(23.03.11 17:00:08 MSK)

Ответ на: комментарий от quantum-troll 23.03.11 16:53:26 MSK

Лучше бы у бабушки был... Под чем выкинули, за то и спасибо.

anonymous
(23.03.11 17:00:23 MSK)

Ссылка

Ответ на: комментарий от mrs 23.03.11 17:00:08 MSK

UPD: в 10 раз

mrs
(23.03.11 17:00:41 MSK)

Ссылка

Ответ на: комментарий от Ttt 23.03.11 16:45:38 MSK

> А почему Google так Apache License любят? Она же плохо совместима с GPL.

Apache PL идеально совместима с современной версией GPL ;)

VoDA ★★
(23.03.11 17:01:07 MSK)

Ссылка

Ответ на: комментарий от devl547 23.03.11 16:51:41 MSK

>> на какой именно порядок?

wikipedia:
Порядок величины — количество цифр в числе. О двух величинах говорят, что они одного порядка, если отношение большего к меньшему из них меньше 10. Таким образом, выражение на порядок больше (или меньше) означает приблизительно в 10 раз больше (или меньше), выражение на два порядка больше означает приблизительно в 100 раз больше и т. д.

GotF ★★★★★
(23.03.11 17:02:54 MSK)

Гуглу очередной респект!

~~moscwich~~ ★
(23.03.11 17:07:36 MSK)

Ссылка

Ответ на: комментарий от sS 23.03.11 16:31:19 MSK

> Ждём реализации в железе с упаковкой траффика данных между процессором и памятью и процессором и периферией :))

Ну, учитывая, что именно соединения становятся узким местом в скорости, я бы не удивился. :)

atrus ★★★★★
(23.03.11 17:08:21 MSK)

Ссылка

Ответ на: комментарий от Ttt 23.03.11 16:45:38 MSK

А почему Google так Apache License любят? Она же плохо совместима с GPL.

Она хорошо совместима с GPLv3 =).

Deleted
(23.03.11 17:13:13 MSK)

Ссылка

Ответ на: комментарий от GotF 23.03.11 17:02:54 MSK

Дискриминация двоичной системы счисления.

~~JustGuest~~ ★
(23.03.11 17:36:03 MSK)

Ссылка

На одном ядре процессора Core i7 в 64-битном режиме скорость сжатия составляет более 250 Мб/сек

Во-первых, Core i7 бывают разные, модель с студию. Во-вторых, значит ли это, что остальные ядра/потоки простаивали и что будет, если запустить 4 или 8 операций разом (программа-то серверная)? Вопрос не праздный, поскольку непонятно, насколько это критично к размеу кеша, который L3 у Core i7, как известно, общий, и будучи поделён между 8 потоками пропорционально уменьшится. Более того L2 тоже общий на каждую пару потоков.

Vudod ★★★★★
(23.03.11 17:41:10 MSK)

Ответ на: комментарий от Vudod 23.03.11 17:41:10 MSK

Вопрос не праздный, поскольку непонятно, насколько это критично к размеу кеша

Собрать библиотку - 2 минуты. Пользоваться тоже не сложно:

snappy::Compress(input, &output);

Сделай все необходимые тесты и расскажи, что и как. У меня нет ниодного i7 в пределах досягаемости, а приведённые цифры - это, что гугол посчитал нужным рассказать.

Ximen ★★★★
(23.03.11 17:56:28 MSK) автор топика

Ответ на: комментарий от Ximen 23.03.11 17:56:28 MSK

Сделай все необходимые тесты и расскажи, что и как. У меня нет ниодного i7 в пределах досягаемости, а приведённые цифры - это, что гугол посчитал нужным рассказать.

Пока некогда, может когда и соберу, ни одного i7 у меня тоже нет, кстати.

Если это просто цифры в результате гугления, стоит либо привести ссылку, либо выкинуть, поскольку их достоверность сильно сомнительна.

Vudod ★★★★★
(23.03.11 18:07:21 MSK)

Ответ на: комментарий от Vudod 23.03.11 18:07:21 MSK

> Пока некогда, может когда и соберу, ни одного i7 у меня тоже нет, кстати.

Если это просто цифры в результате гугления, стоит либо привести ссылку, либо выкинуть, поскольку их достоверность сильно сомнительна.

По ссылке в новости сходить - тоже видимо некогда?

Зато по...деть время всегда находится :)

Vond ★★
(23.03.11 18:17:23 MSK)

Ответ на: комментарий от anonymous 23.03.11 16:33:16 MSK

>Ждем нытиков, которые будут вопить про богомерзкий C++, лучше бы на С, и что либо из-за этого не впихнуть в ядро и ембеддовку.

Лучше бы на Python, или на Cython если так важна скорость исполнения кода.

anonymous
(23.03.11 18:20:03 MSK)

Ответ на: комментарий от Vond 23.03.11 18:17:23 MSK

По ссылке в новости сходить - тоже видимо некогда?

ОК, сходил, порсмотрел. Действительно, теперь источник сих цифр ясен.

Vudod ★★★★★
(23.03.11 18:24:18 MSK)

Ссылка

Ответ на: комментарий от anonymous 23.03.11 18:20:03 MSK

Зачем ты сбежал из сказки «Три толстяка»?

mono ★★★★★
(23.03.11 18:26:18 MSK)

Zlib явно проиграет в скорости. А вот сравнение с LZO хотелось бы увидеть.

buddhist ★★★★★
(23.03.11 18:27:08 MSK)

Ссылка

Ответ на: комментарий от mono 23.03.11 18:26:18 MSK

>Зачем ты сбежал из сказки «Три толстяка»?

А ты видимо не почитал о том, что такое Cython? Для Ъ: Cython — это почти компилируемый Python с возможностями и скоростью исполнения присущей Си.

anonymous
(23.03.11 18:30:07 MSK)

Ответ на: комментарий от anonymous 23.03.11 18:30:07 MSK

А ты видимо не почитал о том, что такое Cython? Для Ъ: Cython — это почти компилируемый Python с возможностями и скоростью исполнения присущей Си.

Стоп, я тоже обожаю Python и Cython, но тут реально толстовато. Cython всё равно использует всю динамику, присущую Python, не может там быть одинаковой скорости с С. Даже, полагаю, если весь код в cdef запхать.

Divius ★★
(23.03.11 18:31:53 MSK)

Ссылка

Ответ на: комментарий от GotF 23.03.11 17:02:54 MSK

У некоторых красноглазых порядки двоичные или шестнадцатиричные.

Deleted
(23.03.11 18:35:52 MSK)

Ответ на: комментарий от Deleted 23.03.11 18:35:52 MSK

Умник, все верно. Если я задам размерность порядка в двоичном числе, то ничего ни с кем не случится.

Например: «больше на 2 порядка» или «больше на 10 (в двоичном числе) порядка».

anonymous
(23.03.11 18:37:45 MSK)

Ссылка

На самом деле плохо понимаю погоню чисто за скоростью сжатия/распаковки. Так можно и простое разделение мантиссы и экспоненты использовать. Надо стараться минимизировать (время_распаковки_сжатия + размер_сжатого_файла).

buddhist ★★★★★
(23.03.11 18:39:31 MSK)

Ссылка

Ответ на: комментарий от anonymous 23.03.11 18:30:07 MSK

а можно интимный вопрос? зачем Python'овские фичи для написания архиватора?

mono ★★★★★
(23.03.11 18:43:33 MSK)

Ответ на: комментарий от quantum-troll 23.03.11 16:35:34 MSK

>С костылей на Си нетрудно будет переписать скорее всего.

Да зачем Си, на Гоу надо все переписывать.

anonymous
(23.03.11 18:58:46 MSK)

Ссылка

> Библиотека для сжатия данных от Google

При первом прочтении возник вопрос: «зачем сжимать данные от Googl?»

anonymous
(23.03.11 19:03:36 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

← Django 1.3 вышел в свет

Open Source

Вышел KTorrent 4.1 →

Гуглу очередной респект!

Похожие темы