Подскажите подходящий алгоритм сжатия

0

1

Вопрос к тем, кто интересуется алгоритмами сжатия без потерь, может можете подсказать?

В программе имеется utf8-символьный массив (на самом деле их много таких массивов), в котором последовательно размещены строки: количество байт строки, потом содержимое строки, снова количество байт строки, содержимое строки и т.д. Хотелось бы этот массив ужать каким-нибудь известным алгоритмом так, чтобы при необходимости я мог зная индекс начала строки разархивировать только ее. Строки короткие, в среднем где-то до 300 символов. Строки в основном осмысленный текст на русском, либо коды на латинице (шаблонные, как правило очень короткие до 10 символов).

Интересует в первую очередь название какого-нибудь уже известного алгоритма.

Ссылка

←	CPS в нефункциональных ЯП

Познал ли я дзен jq в написании запросов?

→

Zram же как то рандомно адресует. Любой алгоритм и жать блоками. Из быстрых lz4

bga_ ★★★★
(24.05.23 21:22:13 MSK)

Ссылка

Любой алгоритм, сжимать блоками по N килобайт, где N выбирается как компромисс между степенью сжатия и оверхедом по времени работы. Рядом с блоками хранить отображение номера строки в оффсет начала блока + оффсет внутри блока, распаковывать целиком блок и вытаскивать оттуда. Чем больше блок, тем лучше будет сжатие, но тем больше нерелевантных данных придётся распаковывать на каждый запрос.

Если что, все ФС с прозрачным сжатием устроены точно так же.

Алгоритмов сжатия, в которых можно было бы разжимать с произвольного места побайтово, я не знаю.

intelfx ★★★★★
(24.05.23 21:53:59 MSK)
Последнее исправление: intelfx 24.05.23 21:55:35 MSK (всего исправлений: 2)

Ответ на: комментарий от intelfx 24.05.23 21:53:59 MSK

Рядом с блоками хранить отображение номера строки

Ему не нужны номера строк, только номера байтов. Так что этот пункт отменяется, а остальное становится ещё проще.

firkax ★★★★★
(24.05.23 22:30:31 MSK)
Последнее исправление: firkax 24.05.23 22:31:18 MSK (всего исправлений: 1)

Ссылка

Есть специализированные алгоритмы для коротких строк, например, https://github.com/antirez/smaz, http://ed-von-schleck.github.io/shoco. Но для сжатия текста на русском скорее всего придётся генерить свои словари

annulen ★★★★★
(24.05.23 22:51:42 MSK)

Ссылка

zlib с его gzseek вполне подходит для бегония по сжатому массиву байт.

в котором последовательно размещены строки: количество байт строки, потом содержимое строки, снова количество байт строки, содержимое строки и т.д.

Как-то дурно пахнет. Доступ к i-ому элементу за O(n). Вынеси указатель + размер в отдельный массив.

Если нужно эти строки ещё и менять, то смотри key-value хранилище в твоём языке программирования.

на самом деле их много таких массивов

И их больше нескольких гигобайт?

З.Ы.: Ну и все варианты прогони через benchmark. А то современные ОС вполне не плохо кешируют в памяти файлы.

AlexVR ★★★★★
(24.05.23 22:58:19 MSK)

количество байт строки, потом содержимое строки

любое сжатие блоком, например zlib + compress

anonymous2 ★★★★★
(25.05.23 04:03:53 MSK)

Ссылка

Ответ на: комментарий от AlexVR 24.05.23 22:58:19 MSK

zlib с его gzseek вполне подходит для бегония по сжатому массиву байт.

If file is open for reading, the implementation may still need to uncompress all of the data up to the new offset. As a result, gzseek() may be extremely slow in some circumstances.

А на практике как оно работает?

intelfx ★★★★★
(25.05.23 15:24:31 MSK)

Ссылка

https://github.com/siara-cc/Unishox

https://github.com/kampersanda/xcdat

Compressed string dictionary. Xcdat implements a (static) compressed string dictioanry that stores a set of strings (or keywords) in a compressed space while supporting several search operations. For example, Xcdat can store an entire set of English Wikipedia titles at half the size of the raw data.

dataman ★★★★★
(25.05.23 15:27:00 MSK)
Последнее исправление: dataman 25.05.23 15:47:56 MSK (всего исправлений: 1)

Ссылка

В issue на zstd интересное обсуждение на тему. Там в том числе отписались авторы многих проектов, которые добавляли индекс поверх существующих форматов сжатия.

snizovtsev ★★★★★
(27.05.23 12:48:59 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	CPS в нефункциональных ЯП

Development

Познал ли я дзен jq в написании запросов?

→

Похожие темы