Алгоритм Хаффмана для последовательностей/больших алфавитов

0

0

Есть поток 32битных целых, надо его максимально эффективно сжать. Значения распределены неравномерно, скажем так примерно половина влезет в 16 бит, но на деле распределение еще сложнее - хочется построить максимально эффективный код. Нужно что-то типа алгоритма Хаффмана, но напрямую (с алфавитом из 2^32 букв) его не применить. Есть идея отталкиваться от длины последовательности, т.е. разбить значения на 32 класса по числу значащих битов, и для каждого Хоффманом вывести префикс. Но как учитывать в алгоритме длину, просто умножать на частоту? Может есть другие варианты - думаю было бы эффективнее разбить числа на большее число классов.

Ссылки/хинты/идеи?

Ссылка

←	[emacs] сворачиваемость

[Qt4][ODBC][FreeTDS] Нет результата от запроса

→

Т.е. смущает размер дерева (2^32 node) для всех возможных вариантов 32 битного целого?

идеи?

Что если читать 32 бита, делить на четыре 8-битовых значения и кодировать именно 8-битными частями. Тогда если исходное 32-битное влезает в 16 бит то две 8-битных части будут просто нулями, а алгоритм можно заточить на нули (чтобы они были ближайшими в дереве).

quasimoto ★★★★
(17.06.10 09:07:27 MSD)

Ответ на: комментарий от quasimoto 17.06.10 09:07:27 MSD

> Тогда если исходное 32-битное влезает в 16 бит то две 8-битных части будут просто нулями, а алгоритм можно заточить на нули (чтобы они были ближайшими в дереве).

Точнее, он сам заточится, не надо его корёжить.

Я бы попробовал ещё делить на 16-битные числа. Причём алгоритм можно применить адаптивный, чтобы не запихивать большой словарь в выходной поток.

const86 ★★★★★
(17.06.10 10:21:46 MSD)

Не совсем понял, чем вас смущает Хаффман напрямую? Большой алфавит? Если да, то все равно ничего вразумительного используя 32 битные символы вы не сделаете, поскольку большинство адекватных алгоритмов требуют статистической информации, а её для алфавита мощьностью 2^32 составить не реально. Так что разбивайте например на 8 битные символы и их кодируйте. Тут подойдет либо классический Хаффман, либо, что предпочтительнее, Арифметическое Кодирование. Либо, если поток содержит много повторяющихся цепочек символов, то LZW алгоритм.

Daeloce ★
(17.06.10 10:34:47 MSD)

Ссылка

Ответ на: комментарий от const86 17.06.10 10:21:46 MSD

Почему сам? Как реализовать так и будет:

или наоборот

или вообще

quasimoto ★★★★
(17.06.10 10:37:24 MSD)

Ответ на: комментарий от quasimoto 17.06.10 10:37:24 MSD

И? Выбор любого из этих деревьев существенно не повлияет ровным счетом ни на что.

Daeloce ★
(17.06.10 10:42:17 MSD)

Ответ на: комментарий от Daeloce 17.06.10 10:42:17 MSD

Т.е. если у автора будет 32-битное [x][0][0][0], то избыточность 0-вых значений ни на что не повлияет?

quasimoto ★★★★
(17.06.10 10:45:36 MSD)

Ответ на: комментарий от quasimoto 17.06.10 10:37:24 MSD

> Почему сам? Как реализовать так и будет

Вообще-то конкретное дерево выбирается по частотам символов. Если нулей много, а ТС обещает, что много, то код для него будет короткий.

const86 ★★★★★
(17.06.10 10:48:07 MSD)

Ссылка

Юзай liblzo2.so и не выпендривайся.

anonymous
(17.06.10 10:50:08 MSD)

Ссылка

Ответ на: комментарий от quasimoto 17.06.10 10:45:36 MSD

Т.е. если «у автора будет 32-битное [x][0][0][0]» то алгоритм Хаффмана сам сделает так чтобы 0 был самым близким по дереву.

P.S. моя вина, не правильно понял ваш рисунок. Показалось что листья деревиев у вас это выходной код, а не исходный символ.

Daeloce ★
(17.06.10 10:55:38 MSD)

Ссылка

Ответ на: комментарий от quasimoto 17.06.10 10:37:24 MSD

Да, с частотой я подзабыл - действительно, если будет избыточность символа (0), то это позволит получить более короткий выходной код.

quasimoto ★★★★
(17.06.10 10:56:01 MSD)

Ссылка

А вообще Хаффман уже давно не Труъ метод!:) Во всем мире от него отказываются в пользу «Арифметического кодирования».

Daeloce ★
(17.06.10 11:00:47 MSD)

Ответ на: комментарий от Daeloce 17.06.10 11:00:47 MSD

Что почитать?)) Это на основе чего-то из ТЧ?

quasimoto ★★★★
(17.06.10 11:01:57 MSD)

Ответ на: комментарий от quasimoto 17.06.10 11:01:57 MSD

Хм, там есть какие-то патентные ограничения, но «The Dirac codec uses arithmetic coding and is not patent pending».

quasimoto ★★★★
(17.06.10 11:10:47 MSD)

Ссылка

Ответ на: комментарий от quasimoto 17.06.10 11:01:57 MSD

Вообще о методах сжатия есть хорошая книжка: Сжатие данных, изображений и звука - Д. Сэломон

А что такое ТЧ?:)

Daeloce ★
(17.06.10 11:20:21 MSD)

Ответ на: комментарий от Daeloce 17.06.10 11:20:21 MSD

А что такое ТЧ?:)

Теория Чисел, как оказалось она там как раз и используется.

Вот такие ссылки силы я нашёл:

http://www.hpl.hp.com/techreports/2004/HPL-2004-76.pdf

http://diracvideo.org/download/arith-speedups/arith-speedups.pdf

Но пока непонятно - это всё самому реализовывать, или есть open source библиотеки для этого? Что-то я ничего не нашёл пока.

quasimoto ★★★★
(17.06.10 11:26:23 MSD)

Ответ на: комментарий от quasimoto 17.06.10 11:26:23 MSD

С либами фиг знает... Должны быть! Данное кодирование используется в стандарте jpeg2000 можно попробовать посмотреть как там реализовано, может они не сами реализовывали, а либу юзали.

Daeloce ★
(17.06.10 11:42:17 MSD)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	[emacs] сворачиваемость

Development

[Qt4][ODBC][FreeTDS] Нет результата от запроса

→

Похожие темы