LINUX.ORG.RU
ФорумTalks

О сжатии, информационной энтропии и искусственном интеллекте

 ,


0

1

Проведем следующий опыт: создадим файл, содержащий последовательность double-ов

sin(1), sin(2), ..., sin(k)
в бинарном виде, например, такой программкой. Для последовательности из 1e7 элементов получим файл размером 77 мегабайт. Натравливаем
gzip -9
и получаем... 73 мегабайта, т.е. почти никакого сжатия, хотя последовательность, как мы знаем, неслучайная и может быть определена довольно небольшим объемом информации.

Теперь вопрос: существуют ли алгоритмы сжатия, приспособленные к задачам сжатия числовых последовательностей или универсальные алгоритмы, которые способны находить столь неявные внутренние закономерности и использовать их для сжатия?

Дополнение: вспоминать об аудиокодеках не стоит, т.к. речь идет о сжатии без потерь.

Deleted

Последнее исправление: Deleted (всего исправлений: 3)

Ответ на: комментарий от TDrive

Любой алгоритм сжатия может обробатывать все множество файлов, просто не все сожмутся, но на работоспособность это ни как не повлияет.

по твоему программу, которая не сжимает файлы, а как раз наоборот, можно назвать «работающей»? ВСЕ программы сжатия построены на простом принципе: Посмотри на мою поняшку, у неё зелёная грива, а следовательно и хвост зелёный. Потому цвет хвоста не нужен, и его можно не передавать. Но хвост МОГ БЫ БЫТЬ и фиолетовый, и данный архиватор на нём-бы подавился, что привело-бы к УВЕЛИЧЕНИЮ сжимаемого файла. К счастью, не бывает укуренных пони с фиолетовым хвостом и зелёной гривой, а бываю только зелёнохвостые. Именно по этой довольно странной причине, сжиматели что-то на практике и сжимают. Но для любого сжимателя ВСЕГДА _можно_ создать файл, который будет БОЛЬШЕ после процедуры сжатия. Т.е. _можно_ нарисовать пони с зелёной гривой и фиолетовым хвостом.

Также и сжиматель на md5 МОЖНО испортить, создав(искусственно) коллизию. Да, он не совершенный, как и любой иной. К счастью, на сегодня метода поиска коллизий не существует. (даже не известно, существует-ли он в принципе).

drBatty ★★
()
Ответ на: комментарий от drBatty

Также и сжиматель на md5 МОЖНО испортить, создав(искусственно) коллизию. Да, он не совершенный, как и любой иной. К счастью, на сегодня метода поиска коллизий не существует. (даже не известно, существует-ли он в принципе).

Береш файл, сжимаешь, если сжатый файл больше изначального то испольуеш изначальный или другой алгоритм сжатия, если меньше то используешь полученный архив.

Береш файл, пропускаешь через md5, используешь md5, получаешь какуюто ху**ню.

Есть разница?

TDrive ★★★★★
()
Ответ на: комментарий от TDrive

нет, ТАМ пони. Нет там никакой «программы».

лол

ну ты мою аватарку что-ли не наблюдаешь?

Невозможно проверить файл на соответствие какому нибудь бинарному формату, ELF например?

в общем случае — нет. В том смысле, что программы типа /usr/bin/file постоянно ошибаются. Т.е. определённый ими тип является всего лишь догадкой. Потому использовать их для наших целей невозможно(ты же ИДЕАЛЬНЫЙ случай рассматриваешь?)

никак не буду.

слив засчитан.

это не мой слив, это математики виноваты в том, что за Over9000 лет так и не научились делить на ноль.

drBatty ★★
()
Ответ на: комментарий от drBatty

ну ты мою аватарку что-ли не наблюдаешь?

Причем тут твоя аватарка?

в общем случае — нет. В том смысле, что программы типа /usr/bin/file постоянно ошибаются. Т.е. определённый ими тип является всего лишь догадкой.

ELF вполне определенный формат, какие догадки? Погрешность от ошибок незначительна.

это не мой слив, это математики виноваты в том, что за Over9000 лет так и не научились делить на ноль.

Ху**ню про архивирование с помощью md5 придумал ты, значит и слив твой.

TDrive ★★★★★
()
Ответ на: комментарий от TDrive

Береш файл, сжимаешь, если сжатый файл больше изначального то испольуеш изначальный или другой алгоритм сжатия, если меньше то используешь полученный архив.

тогда к файлу НУЖНО добавить минимум один бит, который говорит о том, сжимался-ли файл. А если алгоритмов более двух, то число битов составит логарифм этого числа. Не получается у нас суперархиватор...

Береш файл, пропускаешь через md5, используешь md5, получаешь какуюто ху**ню.

Есть разница?

ну начнём с того, что получить файл из md5 невозможно на сегодня. Ибо у нас нет времени на перебор, а иначе мы не умеем.

Но и даже, если это станет возможным, то способ выбора нужной коллизии будет самой меньшей твоей проблемой.

drBatty ★★
()
Ответ на: комментарий от TDrive

ну ты мою аватарку что-ли не наблюдаешь?

Причем тут твоя аватарка?

потому-что именно её я сжал в 1cdfa5cc440f39de65ed238f63e71747

А вот ты мне пытаешься доказать, что существует ещё какая-то HEX, с такой md5. Вот и покажи мне её, ибо я её не наблюдаю.

ELF вполне определенный формат, какие догадки? Погрешность от ошибок незначительна.

она МОЖЕТ быть, также как и МОГУТ быть коллизии. И причём, в отличие от коллизий, таких файлов можно сделать сколько угодно, и я сам сталкивался с ними IRL. А вот коллизий я не видел IRL. По твоей ссылке коллизия непонятного мусора с другим мусором. Это ничего не даёт на практике, ибо мне не нужны файлы с мусором.

Ху**ню про архивирование с помощью md5 придумал ты, значит и слив твой.

что-ты! Это давно уже придумали, это азы.

drBatty ★★
()
Ответ на: комментарий от drBatty

тогда к файлу НУЖНО добавить минимум один бит, который говорит о том, сжимался-ли файл.

.7z; .zip; .tar.gz слышал такое?

Но и даже, если это станет возможным, то способ выбора нужной коллизии будет самой меньшей твоей проблемой.

Следовательно использовать md5 как архиватор это бредни наркомана, следовательно слив засчитан.

TDrive ★★★★★
()
Ответ на: комментарий от drBatty

потому-что именно её я сжал в 1cdfa5cc440f39de65ed238f63e71747
А вот ты мне пытаешься доказать, что существует ещё какая-то HEX, с такой md5. Вот и покажи мне её, ибо я её не наблюдаю.

Я тебе могу подсказать алгоритм гарантированного её нахождения.

она МОЖЕТ быть, также как и МОГУТ быть коллизии. И причём, в отличие от коллизий, таких файлов можно сделать сколько угодно, и я сам сталкивался с ними IRL. А вот коллизий я не видел IRL. По твоей ссылке коллизия непонятного мусора с другим мусором. Это ничего не даёт на практике, ибо мне не нужны файлы с мусором.

Да там много букв, не все умеют читать больше 2 строчек.

что-ты! Это давно уже придумали, это азы.

В таком случае жду пруф на исторический источник или ты не только нарк но и балабол.

TDrive ★★★★★
()
Ответ на: комментарий от TDrive

.7z; .zip; .tar.gz слышал такое?

это LZ77/78 и LZMA. Что дальше? Я и про BWT слышал, и про PPM(D). Так вот ВСЕ эти алгоритмы УВЕЛИЧИВАЮТ файлы. Только некоторые сжимаются, причём их число не намного больше нуля.

Следовательно использовать md5 как архиватор это бредни наркомана

ты коллизию к 1cdfa5cc440f39de65ed238f63e71747 уже подобрал? Нет? Значит слился. Вот как подберёшь, так и докажешь, что md5 не подходит для сжатия аватарок с пони. А пока — подходит.

md5 не подходит лишь для сжатия специально сгенерированного мусора, но мне его и сжимать не нужно. Даже вообще хранить. Как и тебе.

drBatty ★★
()
Ответ на: комментарий от TDrive

Я тебе могу подсказать алгоритм гарантированного её нахождения.

жду с нетерпением.

Да там много букв, не все умеют читать больше 2 строчек.

может между строчек что-то написано? Белым по белому?

В таком случае жду пруф на исторический источник или ты не только нарк но и балабол.

может тебе пруф ещё и умножения два на два предоставить?

drBatty ★★
()
Ответ на: комментарий от cdshines

Будет смешно, если коллизия будет другой аватаркой с пони %)

не будет. Она будет нечитаемым мусором. Я гарантирую это!

drBatty ★★
()
Ответ на: комментарий от drBatty

Я и про BWT слышал, и про PPM(D).

и крестиком вышивать умеешь?

ты коллизию к 1cdfa5cc440f39de65ed238f63e71747 уже подобрал?

доказал факт ее существования

md5 не подходит лишь для сжатия специально сгенерированного мусора

Озвучь критерии по которым файл считается мусором.

жду с нетерпением.

Береш 1 бит, вычисляешь md5, сравниваешь с пони, если не подходит то увеличиваешь на 1 бит.

может тебе пруф ещё и умножения два на два предоставить?

значит пруфа нету...

TDrive ★★★★★
()
Ответ на: комментарий от drBatty

не будет. Она будет нечитаемым мусором. Я гарантирую это!

Уже подобрал все коллизии и проверил их на наличие поней?

TDrive ★★★★★
()
Ответ на: комментарий от TDrive

Я и про BWT слышал, и про PPM(D).

и крестиком вышивать умеешь?

нет. Но в сжатии разбираюсь лучше тебя. Это не сложно, с твоим нулевым уровнем знаний.

ты коллизию к 1cdfa5cc440f39de65ed238f63e71747 уже подобрал?

доказал факт ее существования

во первых нет ты, во вторых ты доказал лишь ВОЗМОЖНОСТЬ её существования. Это как динозавр. Он _возможен_ но биологи их не наблюдают IRL. Вымерли. А коллизий и не было никогда.

Береш 1 бит, вычисляешь md5, сравниваешь с пони, если не подходит то увеличиваешь на 1 бит.

а рецепт вечной жизни подкинешь?

может тебе пруф ещё и умножения два на два предоставить?

значит пруфа нету...

лениво мне ликбез проводить, да ещё и с пруфами.

drBatty ★★
()
Ответ на: комментарий от TDrive

не будет. Она будет нечитаемым мусором. Я гарантирую это!

Уже подобрал все коллизии и проверил их на наличие поней?

нет. Я не знаю, как это сделать.

drBatty ★★
()
Ответ на: комментарий от drBatty

лениво мне ликбез проводить, да ещё и с пруфами.

Ну конечно.) Весь день не лениво было, а как начал понимать тупость своих слов сразу лениво стало.)

TDrive ★★★★★
()
Ответ на: комментарий от TDrive

Ну конечно.) Весь день не лениво было, а как начал понимать тупость своих слов сразу лениво стало.)

нет. Лень пруфы искать общепризнанных вещей.

drBatty ★★
()
Ответ на: комментарий от TDrive

Видимо они общеприняты в твоем воображаемом мире?

угу. В _нашем_ воображаемом виде, в котором мы умеем обращать md5. В реальном мире обращение md5 невозможно.

За то можно однозначно идентифицировать любой РЕАЛЬНЫЙ файл, воспользовавшись его md5 хешем. Т.е. хеш 1cdfa5cc440f39de65ed238f63e71747 есть только у картинки с лошадью. Т.е. я могу тебе только этот хеш дать, и ты будешь иметь 146%ю гарантию, что это пони, а не что-либо другое. Теоретически есть ещё http://pastebin.com/k4f8mvCq файлов с такой md5, но практически есть ТОЛЬКО пони.

Т.е. md5 можно использовать ВМЕСТО самого файла. Например один из методов поиска троянов в chkrootkit именно на этом и работает. Там нет никаких троянов, что никак не мешает программе их находить. DHT тоже позволяет находить файлы по их md4.

drBatty ★★
()
Ответ на: комментарий от drBatty

За то можно однозначно идентифицировать любой РЕАЛЬНЫЙ файл, воспользовавшись его md5 хешем.

Идентифицировать можно, получить на основе md5 реальный файл нельзя.

Т.е. я могу тебе только этот хеш дать, и ты будешь иметь 146%ю гарантию, что это пони, а не что-либо другое.

Нет. Я могу увидеть пони где нибудь в инете, сверить ее md5 с ранее виденной и таким образом понять что это одна и таже.
А голый md5 не несет никакой смысловой нагрузки.


Т.е. md5 можно использовать ВМЕСТО самого файла.

Использовать мд5 файла вместо самого файла? Как интересно. Пойду заменю все фильмы на их мд5 суммы, буду vlc мд5 пихать раз ты говоришь, что можно.

Например один из методов поиска троянов в chkrootkit именно на этом и работает. Там нет никаких троянов, что никак не мешает программе их находить. DHT тоже позволяет находить файлы по их md4.

Это называется сигнатура.

TDrive ★★★★★
()
Последнее исправление: TDrive (всего исправлений: 1)
Ответ на: комментарий от TDrive

За то можно однозначно идентифицировать любой РЕАЛЬНЫЙ файл, воспользовавшись его md5 хешем.

Идентифицировать можно, получить на основе md5 реальный файл нельзя.

Ну я-бы поосторожнее был, «нельзя» не вообще, а на сегодняшнем уровне развития математики. А вот «вообще нельзя» ещё не доказано(и не опровергнуто).

Нет. Я могу увидеть пони где нибудь в инете, сверить ее md5 с ранее виденной и таким образом понять что это одна и таже.
А голый md5 не несет никакой смысловой нагрузки.

несёт. Если я тебе дам ed2k ссылку на cp, то меня могут посадить в тюрьму. Хотя там никакой CP и нет конечно, только композитная md4 и размер(причём размер не обязателен, и нужен только для удобства, ещё там имя должно быть, но тоже любое). А всё потому, что распространение md4 на CP === распространению CP.

Использовать мд5 файла вместо самого файла? Как интересно. Пойду заменю все фильмы на их мд5 суммы, буду vlc мд5 пихать раз ты говоришь, что можно.

в VLC не получится, а вот в aMule можно. Я так и делаю. Фильмы хранить не нужно, достаточно просто хранить их хеш.

Например один из методов поиска троянов в chkrootkit именно на этом и работает. Там нет никаких троянов, что никак не мешает программе их находить. DHT тоже позволяет находить файлы по их md4.

Это называется сигнатура.

нет. Сигнатура это несколько другое понятие. Md5 не может служить надёжной сигнатурой _чего_ _угодно_. Да и сигнатурой реальных файлов хоть и может быть, но лучше использовать sha256. На сегодня md5 держится, но завтра её могут и поломать.

Сигнатура это подпись, а я несколько о другом говорю, об _замене_ файла его хешем.

drBatty ★★
()
Последнее исправление: drBatty (всего исправлений: 1)
Ответ на: комментарий от drBatty

Ну я-бы поосторожнее был, «нельзя» не вообще, а на сегодняшнем уровне развития математики. А вот «вообще нельзя» ещё не доказано(и не опровергнуто).

В реальном мире из голого md5 получит изначальный файл со 100% вероятностью нельзя. В твоем воображаемом мире можно.

Если я тебе дам ed2k ссылку на cp, то меня могут посадить в тюрьму. Хотя там никакой CP и нет конечно, только композитная md4 и размер(причём размер не обязателен, и нужен только для удобства, ещё там имя должно быть, но тоже любое). А всё потому, что распространение md4 на CP === распространению CP.

Нифига не понял.

вот в aMule можно. Я так и делаю. Фильмы хранить не нужно, достаточно просто хранить их хеш.

А я ссылки на сайты храню в браузере, букмаркархивация интернета.

нет. Сигнатура это несколько другое понятие.

нет это именно то понятие.

Сигнатура это подпись

скорее подчерк

об _замене_ файла его хешем.

нельзя заменить файл его хешем.

TDrive ★★★★★
()
Ответ на: комментарий от TDrive

В реальном мире из голого md5 получит изначальный файл со 100% вероятностью нельзя. В твоем воображаемом мире можно.

у меня для тебя плохие новости: в _реальном_ мире вообще ничего нельзя со 100% вероятностью. Только вдоль. Да и то откачать могут.

Если я тебе дам ed2k ссылку на cp, то меня могут посадить в тюрьму. Хотя там никакой CP и нет конечно, только композитная md4 и размер(причём размер не обязателен, и нужен только для удобства, ещё там имя должно быть, но тоже любое). А всё потому, что распространение md4 на CP === распространению CP.

Нифига не понял.

Уголовная ответственность не подразумевает различий между CP и хешами на CP. Юридически хеш === статья. Статья №242

для Ъ процитирую

б) с использованием средств массовой информации, в том числе информационно-телекоммуникационных сетей (включая сеть «Интернет»);

наказываются лишением свободы на срок от двух до шести лет с лишением права занимать определенные должности или заниматься определенной деятельностью на срок до пятнадцати лет либо без такового.

так лучше доходит?

drBatty ★★
()
Ответ на: комментарий от TDrive

А я ссылки на сайты храню в браузере, букмаркархивация интернета.

Ну... Многого тупо нет. Власти скрывают. Даже обычное кино теперь не пофтыкать спокойно. А вот Kademlia живее всех живых.

нет. Сигнатура это несколько другое понятие.

нет это именно то понятие.

ну мне виднее, о чём Я говорю.

об _замене_ файла его хешем.

нельзя заменить файл его хешем.

мне — можно. А ты просто не умеешь. Твоя проблема, на самом-то деле, и не более того.

drBatty ★★
()
Ответ на: комментарий от drBatty

Т.е. хеш 1cdfa5cc440f39de65ed238f63e71747 есть только у картинки с лошадью.

2^128 - это не так уж и много.

Скажем, если по 3 байта на цвет...

Перекрашивая одно туловище у пони с аватарки, получаем 2^24 варианта.

А если ещё и хвост(там два цвета), волосы на голове(тоже два цвета и они могут отличаться от цветов на хвосте), рисунок на туловище(его может и не быть - одинаковый цвет с туловищем), то уже 2^144. (24*6=144)

Или, другими словами, пони рискует превратиться в крокодила.

alfix
()
Ответ на: комментарий от drBatty

ну мне виднее, о чём Я говорю.

видимо нет.

мне — можно. А ты просто не умеешь. Твоя проблема, на самом-то деле, и не более того.

У меня просто нету своего воображаемого мира как у тебя.

TDrive ★★★★★
()
Ответ на: комментарий от alfix

2^128 - это не так уж и много.

это ОЧЕНЬ много. В _любом_ практическом смысле это бесконечность.

Скажем, если по 3 байта на цвет...

ты столько цветов тупо не увидишь. Точнее не различишь.

Или, другими словами, пони рискует превратиться в крокодила.

я уже посчитал этих крокодилов с одной и той же md5. Вот только найти их НЕТ НИКАКОЙ ВОЗМОЖНОСТИ.

drBatty ★★
()
Ответ на: комментарий от TDrive

Ну и где в твоей цитате хоть слово про хеш?))

а какая разница для меня, тебя и Закона? Разница не прописана, а следовательно её нет. Распространение через Интернет — отягчающее обстоятельство.

drBatty ★★
()
Ответ на: комментарий от TDrive

мне — можно. А ты просто не умеешь. Твоя проблема, на самом-то деле, и не более того.

У меня просто нету своего воображаемого мира как у тебя.

ну что поделать? Развивай своё воображение, в жизни пригодится.

drBatty ★★
()
Ответ на: комментарий от drBatty

а какая разница для меня, тебя и Закона? Разница не прописана, а следовательно её нет. Распространение через Интернет — отягчающее обстоятельство.

Ну и причем тут хеш?

TDrive ★★★★★
()
Ответ на: комментарий от TDrive

Ну и причем тут хеш?

при том, что ed2k ссылка содержит только значимый хеш. Этого достаточно для «распространения». И не только практически, но даже и юридически.

drBatty ★★
()
Ответ на: комментарий от drBatty

при том, что ed2k ссылка содержит только значимый хеш. Этого достаточно для «распространения». И не только практически, но даже и юридически.

Если технически этого достаточно для распространения почему юридически не должно быть достаточно? А то что там хеш всем пофигу, будь там QR код или картинка с водяными знаками вместо хеша, суть от этого не поменялась бы.

TDrive ★★★★★
()
Последнее исправление: TDrive (всего исправлений: 1)
Ответ на: комментарий от drBatty

ты столько цветов тупо не увидишь. Точнее не различишь.

Ёлки фиолетовые. Да пусть хоть по байту на цвет. Варианты можно и на другом наскрести: рисунки на туловище, форма ног, количество хвостов...

я уже посчитал этих крокодилов с одной и той же md5. Вот только найти их НЕТ НИКАКОЙ ВОЗМОЖНОСТИ.

А лошадь как получить из md5?

alfix
()
Ответ на: комментарий от TDrive

Если технически этого достаточно для распространения почему юридически не должно быть достаточно? А то что там хеш всем пофигу, будь там QR код или картинка с водяными знаками вместо хеша, суть от этого не поменялась бы.

ну вот видишь? О том и речь, что _можно_ поменять «все фильмы на хеши». Потому-что для _доступа_ к файлу необходимо и достаточно _только_ хеша. О чём я тебе весь день и рассказываю собственно. Т.е. на практике нет никаких коллизий, а вот поиск таки есть. Он даже работает.

drBatty ★★
()
Ответ на: комментарий от alfix

Ёлки фиолетовые. Да пусть хоть по байту на цвет. Варианты можно и на другом наскрести: рисунки на туловище, форма ног, количество хвостов...

вот в том-то и фишка, что _можно_ оно ТОЛЬКО в теории. IRL нельзя. IRL получается только поняха.

А лошадь как получить из md5?

никак к сожалению. А вот из композитной md4 можно в ed2k и в Kademlia поискать. Md5 слишком затратная по ресурсам, что-бы её для поиска юзать.

drBatty ★★
()
Ответ на: комментарий от drBatty

ну вот видишь? О том и речь, что _можно_ поменять «все фильмы на хеши». Потому-что для _доступа_ к файлу необходимо и достаточно _только_ хеша. О чём я тебе весь день и рассказываю собственно. Т.е. на практике нет никаких коллизий, а вот поиск таки есть. Он даже работает.

Фильмы хранятся на левом сервере. хеш фильма это не его замена, а идентификатор по которому можно будет найти сам фильм. Это как номер квартиры или ссылка на сайт.
По определенному номеру можно найти нужную квартиру если знаешь где искать, но это совсем не означает, что любому положительному числу соответствует только одна квартира во всем мире.

Пойду я спать, всеравно ты уже ничего умного из себя выдавить не можешь, а тупняк твой обсуждать надоело.

TDrive ★★★★★
()
Ответ на: комментарий от TDrive

Фильмы хранятся на левом сервере. хеш фильма это не его замена, а идентификатор по которому можно будет найти сам фильм. Это как номер квартиры или ссылка на сайт.

не совсем. В Kademlia нет никакого «левого сервера». И «правого» нету. Там сервер виртуальный, который распилен на миллионы кусочков. Потому-то Kademlia и неуязвима для копирастов.

По определенному номеру можно найти нужную квартиру если знаешь где искать, но это совсем не означает, что любому положительному числу соответствует только одна квартира во всем мире.

потому-что полный однозначный адрес включает в себя не только квартиру, но ещё и страну.город.улицу. И с ними эта квартира вполне однозначна. Как и файл по хешу. Если у тебя есть хеш, ты можешь _однозначно_ найти файл. Любой _реальный_. (естественно, для доступа к файлу недостаточно знать его хеш, как и недостаточно адреса для доступа в квартиру)

drBatty ★★
()
Ответ на: комментарий от alfix

А вот из композитной md4 можно в ed2k и в Kademlia поискать.

А если не найдётся?

ну значит не найдётся. Но поняшку я расшарил: 5D3FDE6E3893E1ACF192BF96B464515D, найдётся.

И да, см. выше: я не давал 146% гарантии.

drBatty ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.