мегаархиватор.

0

0

Есть идея что на алгоритме поиска хэш коллизий можно сделать архиватор с неоднозначной распаковкой. это даже не архивация с потерями, а вообще не понять что. зато сжимает очень круто.

но. на некоторых данных разархивирование может стать однозначным. например если добавить условие что нужно на выходе получить корректный mp3 файл.

или если есть кусочек данных. например можно восстанавливать торренты где полного источника нет.

но, конечно, в идеале из торрент файла получать то на что он ссылается. условие что данные не шум может оказаться достаточным для восстановления.

эх, где мой мегакластер для экспериментов.

Ссылка

←	[анабиоз][qt]Блацкович может выходить в интернет

[озвучиватель девайсов 2] Тот самый маунтманагер

→

← 1 2 →

Ответ на: комментарий от vasaka 13.08.09 01:43:25 MSD

короче вопрос в том сколько будет коллизий для того же фильма, удовлетворяющих условию что человек это воспримет за фильм?

vasaka ★★★
(13.08.09 01:44:45 MSD) автор топика

Ответ на: комментарий от vasaka 13.08.09 01:44:45 MSD

если добавить к фильму текстовое описание сюжета - то может одна?

vasaka ★★★
(13.08.09 01:48:56 MSD) автор топика

Ответ на: комментарий от vasaka 13.08.09 01:48:56 MSD

>если добавить к фильму текстовое описание сюжета - то может одна?

Чуть более чем дохрена.

Если сказать: длина фильма - 732311123 байт и текстовое описание, достаточно ли тебе этого будет для восстановления? Нет. Хеш длиной в 100 кб сокращает пространство поиска всего лишь на 100кб, вот и считай (коллизии распределены равномерно).

Вот тебе ещё повод для размышление: в знаках числа пи содержатся все возможные числовые последовательности. Можно ли сделать на основе этого архиватор?

Davidov ★★★★
(13.08.09 02:00:53 MSD)

Ответ на: комментарий от melkor217 13.08.09 01:25:35 MSD

>Не припомню его трудов, имеющих отношение к вопросу.

Ну как бы его труды по теории информации к вопросу имеют прямое отношение.

И вообще, тогда хеша нужно два.

Macil ★★★★★
(13.08.09 02:08:15 MSD)

Ответ на: комментарий от Davidov 13.08.09 02:00:53 MSD

блин, врубился.

>Хеш длиной в 100 кб сокращает пространство поиска всего лишь на 100кб

вот это я из виду как-то упустил.

действительно фигню выдумал.

vasaka ★★★
(13.08.09 02:09:04 MSD) автор топика

Ссылка

Ответ на: комментарий от vasaka 13.08.09 01:00:54 MSD

хорошо, оперируем блоками размером n. для каждого блока храним хэш размером h и сигнатуру размером s. в таком случае количество коллизий c = 2^n / 2^(h+s) (1)

нам требуется c = 1

из 1 очевидно, что для этого должно выполняться условие n - (h + s) = 0, а значит h + s = n. сжатия не получается.

Zenom ★★★
(13.08.09 02:16:33 MSD)

Ссылка

Ответ на: комментарий от vasaka 13.08.09 01:19:33 MSD

>думаю есть шансы что с увеличением мощностей начнут применять метод "миллион обезьян много миллиардов лет печатали" для генерации контента.

Для генерации чего-либо сложнее "hello, world" понадобятся бесконечные мощности.

Alsvartr ★★★★★
(13.08.09 02:35:21 MSD)

Ответ на: комментарий от Alsvartr 13.08.09 02:35:21 MSD

та ладно, всего-лишь экспоненциальные. это почти то же самое с практической точки зрения, но все же не бесконечность.

vasaka ★★★
(13.08.09 03:14:34 MSD) автор топика

Выдыхай.

GreyDoom ★★★★
(13.08.09 05:00:05 MSD)

Ссылка

ты только что изобрел eMule

DNA_Seq ★★☆☆☆
(13.08.09 05:32:21 MSD)

тред-индикатор ЛОРа "кто прогуливал дискретную математику"

your_bunny
(13.08.09 05:35:11 MSD)

Ссылка

> но. на некоторых данных разархивирование может стать однозначным. например если добавить условие что нужно на выходе получить корректный mp3 файл.

Только если данные в файле умещаются в длину md5 хеша, иначе перед тобой будет множество коллизий c заголовками mp3 файлов.

~~guest065234~~
(13.08.09 08:25:56 MSD)

Ссылка

Ответ на: комментарий от DNA_Seq 13.08.09 05:32:21 MSD

Нет. В eMule хеши используются для адресации, а не для восстановления по ним исходных данных.

Zenom ★★★
(13.08.09 10:12:21 MSD)

Ссылка

http://www.linux.org.ru/jump-message.jsp?msgid=1675302&cid=1676278

Neksys ★★★
(13.08.09 10:16:29 MSD)

Ссылка

http://forum.ixbt.com/topic.cgi?id=40:515

Особо рекомендуется к прочтению первый же пост IronPeter'а:
> Господа. Хотите я докажу теорему, что сжатие в принципе невозможно?

> Дано: алфавит из N букв. Наборов строк длины K ровно N^K штук. Теперь мы хотим переписать (закодировать) эти строки на том же языке, используя строки длины <K. Таких строк меньше или равно, чем N^{K-1}. Нельзя однозначно отобразить множество из большего числа элементов на множество их меньшего числа элементов. Можно показать, что если наша операция сжимает хоть одну строку, то оно "разжимает" какую-то другую строку. Сжатие в принципе невозможно!

> Возможно оно лишь в том случае, ежели мы сжимаем строки с разумным строением. Есть такое понятие - колмогоровская сложность строки. Грубо говоря, это длина минимальной программы на формальном языке (скажем, на C), которая печатает данную строку. У строки, состоящей из первого миллиарда знаков pi после запятой, колмогоровская сложность копеечная. Между тем эта строка _может__быть_ (я не берусь доказать, что она такова) чрезвычайно плохой с вероятностной точки зрения (стандартная энтропия большая).
> Можно показать, что почти у всех строк колмогоровская сложность очень большая. И лишь у горстки строк она низкая. Так что у строки, снятой с генератора белого шума, колмогоровская сложность относительно заданного формального языка будет почти наверняка большой, то есть такую строку нельзя сжать.

Только читать надо со включенным мозгом, иначе эффект может быть непредсказуемым =).

Deleted
(13.08.09 10:27:36 MSD)

смысл...

для задачи сжатия данных имеются вполне осмысленные поставленные цели, иными словами - хороший, годный для сжатия файл имеет какой-либо смысл. Смысл имеют данные, полученные из реального мира. Реальный мир ограничен некоторым количеством информации, которая описывает все его состояния за время существования. Вот дальше - без пруфа, где-то читал, что для адресации всех состояний мира в любой момент времени достаточно с большим запасом 512-битного числа.

Разумный архиватор готов. Вот только воспользоваться им смог бы, пожалуй, только боженька, которого, как _МЫ ВСЕ ЗНАЕМ_, не.

spunky ★★
(13.08.09 11:18:16 MSD)

Ссылка

Ответ на: комментарий от melkor217 13.08.09 00:11:33 MSD

> Пример простого сжатия: сначала выделяем самые часто встречаемые и длинные слова (в данном файле или вообще). Допустим, таблица генерируется из файла и хранится вместе с архивом. А затем архивируем: переходим к более мощному алфавиту, допустим, двухбайтовому.

Ты описал то ли перелемпелзива, то ли недохаффмена.

shimon ★★★★★
(13.08.09 11:49:47 MSD)

Ответ на: комментарий от vasaka 13.08.09 03:14:34 MSD

Тотальный перебор - эот тупиковый путь. Надеюсь, ты это поймешь

ftor ★
(13.08.09 12:10:30 MSD)

Ответ на: комментарий от ftor 13.08.09 12:10:30 MSD

да знаю я что тупиковый.

да только вот не всегда. иногда метод работает. некоторые группы, например так классифицировали.

или, вот, комп в шашки так научили играть.

vasaka ★★★
(13.08.09 12:30:19 MSD) автор топика

Ссылка

Ответ на: комментарий от Deleted 13.08.09 10:27:36 MSD

> Можно показать, что почти у всех строк колмогоровская сложность очень большая. И лишь у горстки строк она низкая.

одно дело _почти всех строк_, другое _почти всех используемых строк_, которые как раз, походу, и представляют эту горстку...

n01r ★★
(13.08.09 12:54:07 MSD)

Ссылка

Ответ на: комментарий от Macil 13.08.09 02:08:15 MSD

> Ну как бы его труды по теории информации к вопросу имеют прямое отношение.

По теории информации? Гм, а почему труды Черча, Тьюринга, Фон Неймана, Кнута, Дейкстры, [...] по теории информации не имеют прямого отношения к вопросу?

Если у Шеннона всё-таки есть что-то, связанное с хеш-таблицами и сжатием данных -- кидайте, местные аналитики будут рады.

melkor217 ★★★★★
(13.08.09 14:25:30 MSD)

Ссылка

Ответ на: комментарий от shimon 13.08.09 11:49:47 MSD

> Ты описал то ли перелемпелзива, то ли недохаффмена.

Именно поэтому я и не стал называть то, что получилось))

Просто на ходу придумывалось что-нибудь работающее лучше этих хешей, чтобы быстро описать на словах.

melkor217 ★★★★★
(13.08.09 14:32:23 MSD)

Ссылка

раз уж с хэшами облом, то вот еще идея из разряда миллиард обезьян. перебирать проги размера n генерящие данные размера m. пока не найдешь подходящую.

vasaka ★★★
(13.08.09 14:41:41 MSD) автор топика

Ответ на: комментарий от vasaka 13.08.09 14:41:41 MSD

при этом тут уже может помочь что-нибудь вроде генетических алгоритмов. если нужно делать сжатие с потерями, то есть шанс на эффективность.

vasaka ★★★
(13.08.09 14:43:09 MSD) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	[анабиоз][qt]Блацкович может выходить в интернет

Talks

[озвучиватель девайсов 2] Тот самый маунтманагер

→

Похожие темы