чем эффективней пожать 256 бит

0

1

Есть последовательность из 256 случайных бит, нужно попытаться их чем то эффективно пожать. Те я буду выдавать на выход некий заголовок в котором буду указывать применял ли я сжатие, какое и данные (сжатые или нет). Подскажите плиз чем (в идеале каким алгоритмом но пойдет и библиотека/тулза) эффективно пожать 256 случайных бит? Если несколько алгоритмов, то совсем хорошо. Пока то что у меня придумывается не особо хорошо.

Ссылка

←	Не собирается jemalloc

SVG анимация в Qt

→

← 1 2 →

случайные биты не жмутся

/thread

Harald ★★★★★
(25.05.19 16:48:04 MSK)

Ответ на: комментарий от Harald 25.05.19 16:48:04 MSK

они на то и случайные что могут и жаться. я буду пытаться их пожать и если результат хреновый выдавать без сжатия, а если хороший то со сжатием

quester ★★
(25.05.19 16:50:10 MSK) автор топика

CRC32 сойдёт я думаю.

~~linuxnewbie~~
(25.05.19 16:51:30 MSK)

Ответ на: комментарий от quester 25.05.19 16:50:10 MSK

но в среднем у тебя будет чаще оверхед в виде заголовка и непожатые биты :)

Harald ★★★★★
(25.05.19 16:53:43 MSK)

Ответ на: комментарий от linuxnewbie 25.05.19 16:51:30 MSK

смешная шутка

quester ★★
(25.05.19 17:17:14 MSK) автор топика

Ответ на: комментарий от Harald 25.05.19 16:53:43 MSK

там заголовок то может будет 1 бит, так что может быть выгодно

quester ★★
(25.05.19 17:17:59 MSK) автор топика

Ссылка

Ответ на: комментарий от quester 25.05.19 17:17:14 MSK

Ну у меня жсон злибом неплохо так сжимался, если сжимать данные которые не понадобятся никогда, экономия очень неплохая. Если понадобятся, то скрость слишком проседает.

~~linuxnewbie~~
(25.05.19 17:32:44 MSK)

Ссылка

Арифметическое кодирование, наверное. Особенно, если тебя патенты не пугают.

Но на 256 битах вряд ли будет профит.

i-rinat ★★★★★
(25.05.19 17:35:25 MSK)

Ответ на: комментарий от i-rinat 25.05.19 17:35:25 MSK

Но на 256 битах

Ринат, 256 бит - это ж всего 32 байта. Чего ТС сжимать то хочет?

Deleted
(25.05.19 17:39:19 MSK)
Последнее исправление: Deleted 25.05.19 17:41:43 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 25.05.19 17:39:19 MSK

Я бы даже напомнил, что это четыре int64_t.

anonymous
(25.05.19 17:41:55 MSK)

Ответ на: комментарий от anonymous 25.05.19 17:41:55 MSK

uint64_t

quester ★★
(25.05.19 17:44:55 MSK) автор топика

Ответ на: комментарий от Deleted 25.05.19 17:39:19 MSK

Чего ТС сжимать то хочет?

256 бит

quester ★★
(25.05.19 17:45:45 MSK) автор топика

Ответ на: комментарий от quester 25.05.19 17:45:45 MSK

256 бит

32 байта. Сжимать нечего!

Deleted
(25.05.19 17:46:40 MSK)

Есть специальные алгоритмы для сжатия коротких текстовых строк, например https://github.com/antirez/smaz

А для общего случая вряд ли есть что-то специальное, да и вообще непонятно, на кой черт сжимать такие объемы информации

annulen ★★★★★
(25.05.19 17:49:26 MSK)

Ссылка

Если у тебя есть много сообщений по 256 бит и в них не случайные данные, а есть возможны повторящиеся фрагменты, то можно использовать алгоритм общего назначения со словарем, который формируется из набора образцов. Например, zstd так умеет

annulen ★★★★★
(25.05.19 17:51:34 MSK)

Именно случайные-случайные, и без накопления статистики по предыдущим битам? Тогда только RLE.

anonymous
(25.05.19 17:54:19 MSK)

Ответ на: комментарий от Deleted 25.05.19 17:46:40 MSK

есть чего

quester ★★
(25.05.19 18:54:04 MSK) автор топика

Ответ на: комментарий от quester 25.05.19 18:54:04 MSK

есть чего

Чего?

Deleted
(25.05.19 18:55:11 MSK)

Ответ на: комментарий от annulen 25.05.19 17:51:34 MSK

Нет нужно сжимать каждое сообщение в отдельности, не скопом

quester ★★
(25.05.19 18:56:04 MSK) автор топика

Ответ на: комментарий от Deleted 25.05.19 18:55:11 MSK

Биты. Было 32 байта, будет скажем 25 уже большой прогресс.

quester ★★
(25.05.19 18:57:10 MSK) автор топика

Ответ на: комментарий от quester 25.05.19 18:56:04 MSK

Нет нужно сжимать каждое сообщение в отдельности, не скопом

Вот именно для этого и предназначен режим со словарем. Если можно пожать скопом, то никакой словарь не нужен, склеиваешь вместе и жмешь с такой же эффективностью

https://facebook.github.io/zstd/#small-data

annulen ★★★★★
(25.05.19 18:58:54 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.05.19 17:54:19 MSK

хорошо бы какой то вариант RLE для таких микро случаев, ориентированный не на байты (8 бит) а на что меньшее

quester ★★
(25.05.19 18:59:45 MSK) автор топика

Ответ на: комментарий от quester 25.05.19 18:57:10 MSK

будет скажем 25

Не будет. Только если это не нули с парой единиц.

Deleted
(25.05.19 19:00:07 MSK)

Ссылка

Возьми файл размером 50 мегабайт случайных данных из /dev/urandom и попробуй сжимать разными архиваторами. Затем сравни размер архивов и оригинала и пойми тщетность этой затеи.

V1KT0P ★★
(25.05.19 19:36:33 MSK)

Ссылка

Ответ на: комментарий от quester 25.05.19 17:44:55 MSK

и int64_t тоже

next_time ★★★★★
(25.05.19 20:14:23 MSK)

Ссылка

Ответ на: комментарий от Harald 25.05.19 16:48:04 MSK

при линейном распределении - да, но если там какое-то другое, например, гауссово, то вполне, вот только 256 бит - слишком мало, чтобы получить профит, ну кроме случая, когда можно составить словарь, как выше советуют

next_time ★★★★★
(25.05.19 20:17:43 MSK)

Ответ на: комментарий от next_time 25.05.19 20:17:43 MSK

при линейном распределении - да,

ты хотел сказать равномерном, а это подразумеваемый дефолт для случайных данных

Harald ★★★★★
(25.05.19 20:18:59 MSK)

Ответ на: комментарий от Harald 25.05.19 20:18:59 MSK

подразумеваемый дефолт для случайных данных - гауссово распределение, кстати оно ещё называется «нормальным» не просто так

next_time ★★★★★
(25.05.19 20:20:39 MSK)

Ссылка

если енти данные все таки не хаотичны и иееют какойто смысл то можно попробовать собрать словарик самых распространенных последовательностей. и словарик размером в мегобайты таскать вместе с алгоритмом, авось пригодится.

но блин 32 байта это как говорила Раневская «Королевство маловато - разгуляться негде». проще не париться этим обрезком вечности.

pfg ★★★★★
(25.05.19 20:23:51 MSK)

Ссылка

Ответ на: комментарий от Deleted 25.05.19 17:46:40 MSK

32 байта «жмутся по-любому» #&169; (это не шутка и не троллинг)

меньше уже как повезёт :(

а 32 байта — да, жмутся. другое дело, что «выигрыш» там ~4..12 bit (это насколько я помню, лень рыться в записях).

как только, алгоритм станет public я тебя кастану и ты меня ~~опровергнешь~~. ЛОР нас рассудит :)

---
~~блин, прощай отпуск // и кто меня за язык тянул~~

anonymous
(25.05.19 20:55:45 MSK)

Ссылка

Ответ на: комментарий от Deleted 25.05.19 18:55:11 MSK

есть чего

Чего?

а чего надо?

anonymous
(25.05.19 20:58:31 MSK)

Ответ на: комментарий от anonymous 25.05.19 20:58:31 MSK

а чего надо?

У ТС спроси, я так и не распарсил, чё ему надо.

Deleted
(25.05.19 21:00:20 MSK)

Ссылка

Есть последовательность из 256 случайных бит, нужно попытаться их чем то эффективно пожать

Эффективнее всего никак не жать, т.к. случайные данные не жмутся.

peregrine ★★★★★
(25.05.19 21:09:03 MSK)

Ответ на: комментарий от peregrine 25.05.19 21:09:03 MSK

случайные данные не жмутся

Это не так. Не жмутся данные, неотличимые от белого шума, а если вероятности выпадения единиц и нулей сильно разные, то могут очень хорошо жаться, тем же RLE

annulen ★★★★★
(25.05.19 23:41:21 MSK)

Я дико извиняюсь, а хранится это будет как? Имею ввиду: записывать на hdd (ssd)? А как же размер блока?

~~mul4~~ ★★★★★
(26.05.19 00:42:41 MSK)
Последнее исправление: mul4 26.05.19 00:43:07 MSK (всего исправлений: 1)

Ответ на: комментарий от quester 25.05.19 16:50:10 MSK

они у тебя случайные, или с неизвестной закономерностью?

если случайные, то они не жмутся. вариант жать/не жать не даст профита в среднем. если бы у тебя было, например, 254 бита, и 2 бита незаняты, тогда можно выжать чуть-чуть за счет использования этих 2 бит. почитай про сжатие хаффмена, с математическими выкладками, возможно, наступит просветление.

если какая-то неизвестная закономерность, то надо изучать её, и плясать уже от этих данных

MyTrooName ★★★★★
(26.05.19 00:55:18 MSK)

Ссылка

Ответ на: комментарий от annulen 25.05.19 23:41:21 MSK

Случайные это и есть белый шум

peregrine ★★★★★
(26.05.19 01:13:10 MSK)

Написал бы, какое распределение. Мы тут Ванги что ли?

~~deadplace~~ ★
(26.05.19 05:58:52 MSK)

Ссылка

Положи все единички с права, а нулики с лева, убери нулики, профит! ахахахах. Да никак общими методами, надо смотреть какая типичная последовательность и под это пилить байтоэкономию

Deleted
(26.05.19 06:03:20 MSK)

Ссылка

Ответ на: комментарий от mul4 26.05.19 00:42:41 MSK

Ему, как я понял, не хранить, а передавать.

greenman ★★★★★
(26.05.19 07:20:08 MSK)

Ссылка

Ответ на: комментарий от peregrine 26.05.19 01:13:10 MSK

Нет. Белый шум - это равномерное распределение.

annulen ★★★★★
(26.05.19 12:20:29 MSK)

Ссылка

Ответ на: комментарий от quester 25.05.19 18:59:45 MSK

хорошо бы какой то вариант RLE для таких микро случаев, ориентированный не на байты (8 бит) а на что меньшее

Вот интересный совет про битовый RLE https://stackoverflow.com/a/7603969 (с 1 битом оверхеда на все сообщение в худшем случае).

Deleted
(26.05.19 13:21:03 MSK)

Ссылка

Если они реально случайные, то теория информации говорит нам, что сжать такое нельзя. Тебе даже статистику не набрать по этим 256-битным словам, они случайные

Это не то, что можно сжать. Сдавайся, не пытайся делать вечный двигатель, получить 110% КПД

I-Love-Microsoft ★★★★★
(26.05.19 19:01:48 MSK)

Ссылка

Ответ на: комментарий от peregrine 26.05.19 01:13:10 MSK

спектр шума бывает не только белым

I-Love-Microsoft ★★★★★
(26.05.19 19:02:26 MSK)

Вот тут пишут можно достичь сжатия с соотношением 0.3-0.4 на примере википедии, ещё они смазали всё simd чтобы быстро работало. Вроде это оно.

~~linuxnewbie~~
(26.05.19 19:32:47 MSK)

Ответ на: комментарий от linuxnewbie 26.05.19 19:32:47 MSK

на примере википедии

А разве на википедии есть большое количество случайных данных?

V1KT0P ★★
(26.05.19 20:37:08 MSK)

Ответ на: комментарий от V1KT0P 26.05.19 20:37:08 MSK

на википедии

В википедии.

anonymous
(26.05.19 20:38:51 MSK)

Ссылка

Ответ на: комментарий от V1KT0P 26.05.19 20:37:08 MSK

А разве на википедии есть большое количество случайных данных?

Ну, говорят, что вся wiki - случайный набор букв, иногда складывающихся в осмысленные фразы. )

Deleted
(26.05.19 20:39:16 MSK)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 26.05.19 19:02:26 MSK

Это не случайный шум. Пожми /dev/random

peregrine ★★★★★
(26.05.19 21:21:26 MSK)

Ссылка

Ответ на: комментарий от V1KT0P 26.05.19 20:37:08 MSK

Википедия не Украина.

peregrine ★★★★★
(26.05.19 21:22:06 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Не собирается jemalloc

Development

SVG анимация в Qt

→

Похожие темы