Сжатие данных при помощи lzw

0

1

Здравствуй, лор. Из айтишных форумов я посещаю только тебя, поэтому спросить мне больше негде.

Пытаюсь закодить LZW. Как работает сам алгоритм, понял хорошо. Возникают проблемы с его реализацией. Сразу оговорюсь, что в качестве яп — java.

Ограничим размер самого длинного кода в словаре 12-ю битами. Допустим, я считал какой-то блок данных (используя жабий FileInputStream), корректно обработал его и получил для него список кодов (пусть он хранится в ArrayList). Теперь передо мной стоит задача: как сохранить этот набор кодов (в файл) так, чтобы можно было бы потом корректно его считать. Т.е. если все коды имеют переменную длину, то как при декодировании один код отличить от другого в непрерывном потоке байт?

UPD: вот тут - LZW.jar, BinaryStdOut.jar делается по-наивному. Как я понял, все коды просто приводятся к длине в 12 бит, поэтому проблем при декодировании не возникнет. Но это неоптимально по сжатию.

Ссылка

← Метод прогонки для разделяемой памяти. Видимо совсем запуталась в индексах.

HBase / Cassandra - как физически данные лежат на диске? →

Сначала ты написал

получил для него список кодов (пусть он хранится в ArrayList)

а потом

как сохранить этот набор кодов так, чтобы можно было бы потом корректно его считать.

Если он уже сохранен как список, зачем его опять сохранять?

~~hotpil~~ ★★★★
(29.05.17 17:13:29 MSK)
Последнее исправление: hotpil 29.05.17 17:14:29 MSK (всего исправлений: 1)

Ответ на: комментарий от hotpil 29.05.17 17:13:29 MSK

Видимо камрад имеет ввиду как потом пройти по этому префиксному дереву в поисках нужного значения.

Но вообще ,если ты все правильно сделал, то у тебя не должно быть проблем. Первае совпавшая последовательность из словаря должно быть валидной.

хм .. яж правильно помню, что это в lzw строится битовый trie? или это другой алгоритм?

anonymous
(29.05.17 17:24:46 MSK)

Ответ на: комментарий от anonymous 29.05.17 17:24:46 MSK

хм .. яж правильно помню, что это в lzw строится битовый trie? или это другой алгоритм?

Не,это Хаффман)

DaniilA
(29.05.17 17:31:08 MSK) автор топика

Ссылка

Ответ на: комментарий от hotpil 29.05.17 17:13:29 MSK

Я имел ввиду записать его (этот ArrayList с кодами) в файл.

DaniilA
(29.05.17 17:32:00 MSK) автор топика

Ссылка

Размер групп фиксированный. Алгоритм в заатаченых реализациях просто соответсвует определнию LZW.

Вы, кстати, не первый кто посчитал это не оптимальным (stack).

UnknownNPC
(29.05.17 18:39:10 MSK)

Ссылка

Компрессор и декомпрессор стартуют с одинаковым состоянием словаря — 8-битные коды для однобайтовых строк. Когда компрессор встречает новую строку, состоящую из конкатенации имеющейся в словаре строки и одного байта, он выводит в выходной поток код имеющейся строки в текущей битности словаря и этот байт, и добавляет в словарь новую строку с новым кодом, расширяя битность словаря на 1 бит, если все коды текущей битности заняты. Декомпрессор читает из потока пары (код текущей битности словаря, байт), добавляет новую строку в словарь, после чего расширяет битность словаря, если он заполнен. Таким образом битность кодов постепенно логарифмически растет.

iliyap ★★★★★
(29.05.17 18:59:57 MSK)
Последнее исправление: iliyap 29.05.17 19:01:13 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Метод прогонки для разделяемой памяти. Видимо совсем запуталась в индексах.

Development

HBase / Cassandra - как физически данные лежат на диске? →

Похожие темы