что будет если в git закоммиттить 2 разных файла с одинаковым хэшем?

нормально отношусь. более того, часто использую. и вообще много доисторических эфективных протоколов просто диктуют подобное поведение: NAT+tcp/ip (а о udp вообще страшно подумать), ISO 8583,...

Pi ★★★★★
(20.03.09 21:18:03 MSK)

Ссылка

Когда вероятность настолько низка - черт с ней, а то надо начинать беспокоиться о сбоях памяти от космических лучей.

Впрочем, Bzr не использует модную концепцию content addressability.

tailgunner ★★★★★
(20.03.09 21:33:58 MSK)

Ссылка

> И общий вопрос -- как вы относитесь к коду, который by design имеет ненулевую вероятность некорректного поведения?

Плохо. А свой код я вообще ненавижу, мне он кажется просто говном. Когда я параноидально (именно параноидально =)) пытаюсь свести вероятность некорректного поведения к минимуму, то рождаются такие монструозные и уродски выглядящие конструкции, что хочется сделать rm -fr project и написать всё с нуля. А если пытаюсь написать с нуля, то получается то же самое...

*уныние*

Deleted
(20.03.09 21:54:37 MSK)

Ответ на: комментарий от Deleted 20.03.09 21:54:37 MSK

Вопрос в тему: а вас беспокоит возможность некорректного поведения программы из-за возможного целочисленного переполнения int, даже если произойти это может только если программа будет работать без остановки десяток лет? А вот у меня такая шиза имеется...

Deleted
(20.03.09 21:56:47 MSK)

> И общий вопрос -- как вы относитесь к коду, который by design имеет ненулевую вероятность некорректного поведения?

Плохо, если это некорректное поведение может вовлечь за собой очень неприятные последствия. Если последствия некорректного поведения кода не представляют из себя большой проблемы, и если вероятность мала, то мне все равно на такой код.

smh ★★★
(20.03.09 22:13:26 MSK)

Ссылка

> если в git закоммиттить 2 разных файла с одинаковым хэшем?

Ничего страшного, мне больше интересно что будет если у двух коммитов контрольная сумма совпадёт.

> который by design имеет ненулевую вероятность некорректного поведения?

Лишь бы это документировано было.

true_admin ★★★★★
(20.03.09 22:16:34 MSK)

Ссылка

Ответ на: комментарий от Deleted 20.03.09 21:56:47 MSK

>А вот у меня такая шиза имеется...

Я думал, я один такой патологический перфекционист.

ahonymous
(20.03.09 22:24:30 MSK)

Ссылка

Ответ на: комментарий от Deleted 20.03.09 21:56:47 MSK

>беспокоит возможность некорректного поведения программы из-за возможного целочисленного переполнения int

Совершенно не беспокоит. Просто надо использовать правильные ЯП, в которых такую возможность просто так не создать.

dmitry_vk ★★★
(20.03.09 23:21:23 MSK)

>что будет

скорее всего, оба файла будут иметь одинаковое содержимое (наверное, содержимое того файла, который был закоммичен первым).

>И общий вопрос -- как вы относитесь к коду, который by design имеет ненулевую вероятность некорректного поведения?

Если это необходимое зло (т.е., не получится избавиться от этой вероятности), то нормально. ИМХО, в распределенной системе вроде git по-другому не получится решить проблему назначения идентификаторов.

Ну, и конечно, все зависит от того, на каком пространстве событий задана эта вероятность. Одно дело — если эта вещь не зависит от действий пользователей (космические лучи), то на нее можно заранее спокойно закрыть глаза. Гораздо серьезнее, когда вероятностное пространство состоит возможных действий пользователя.

dmitry_vk ★★★
(20.03.09 23:25:57 MSK)

Ответ на: комментарий от dmitry_vk 20.03.09 23:21:23 MSK

> Просто надо использовать правильные ЯП

Использовать эти самые "правильные" ЯП возможно далеко не всегда. Можете себе представить видео декодер на lisp'е? Я нет.

Deleted
(20.03.09 23:31:33 MSK)

Ответ на: комментарий от dmitry_vk 20.03.09 23:25:57 MSK

> ИМХО, в распределенной системе вроде git по-другому не получится решить проблему назначения идентификаторов.

Получится.

tailgunner ★★★★★
(20.03.09 23:34:53 MSK)

Ссылка

Ответ на: комментарий от Deleted 20.03.09 23:31:33 MSK

> Можете себе представить видео декодер на lisp'е?

Можно. Люди для Haskell'а биндинги к SSE делают, ничего так, на тестах шустро крутится. Правда, тут гамак и конечная цель несколько несоотносятся - но можно (к примеру, чтобы не учить и не использовать тошнотворные языки...)

Spectr ★★★
(20.03.09 23:46:21 MSK)

Ответ на: комментарий от dmitry_vk 20.03.09 23:21:23 MSK

> Просто надо использовать правильные ЯП, в которых такую возможность просто так не создать.

эти языки зачастую и полезные возможности использовать мешают.

Spectr ★★★
(20.03.09 23:47:35 MSK)

Ссылка

Ответ на: комментарий от Spectr 20.03.09 23:46:21 MSK

>> Можете себе представить видео декодер на lisp'е?

> Можно. Люди для Haskell'а биндинги к SSE делают, ничего так, на тестах шустро крутится.

Только это уже не программа на Хаскеле, ага?

tailgunner ★★★★★
(20.03.09 23:52:42 MSK)

Ответ на: комментарий от Deleted 20.03.09 23:31:33 MSK

> Можете себе представить видео декодер на lisp'е? Я нет.

Esli lisp zapuskaetsya pryamo na zheleze, to pochemu net?

~~CL-USER~~
(20.03.09 23:54:55 MSK)

Ответ на: комментарий от CL-USER 20.03.09 23:54:55 MSK

> Esli lisp zapuskaetsya pryamo na zheleze, to pochemu net?

Нет, всё-таки сложно представить более вакуумносферическую штуку, чем видео-декодер написанный на лиспе и работающий на железной лисп-машине...

Deleted
(20.03.09 23:58:11 MSK)

Ссылка

Ответ на: комментарий от dmitry_vk 20.03.09 23:25:57 MSK

> ИМХО, в распределенной системе вроде git по-другому не получится решить проблему назначения идентификаторов.

ну, например, UUID+hash, или даже один UUID принципиально отличается от одного hash. Потому что в UUID (который time- и MAC- based) приняты понятные меры для предотвращения коллизии. А один hash это просто упование на авось.

dilmah ★★★★★
(21.03.09 00:15:09 MSK) автор топика

Ответ на: комментарий от dilmah 21.03.09 00:15:09 MSK

> UUID (который time- и MAC- based) приняты понятные меры для предотвращения коллизии. А один hash это просто упование на авось.

Вообще-то в SHA этих мер принято еще больше :)

tailgunner ★★★★★
(21.03.09 00:23:38 MSK)

Ответ на: комментарий от tailgunner 20.03.09 23:52:42 MSK

> Только это уже не программа на Хаскеле, ага?

Почему же? В Хаскеле монады кошерны - какая тогда разница, какую абстракцию реального мира они представляют?

Spectr ★★★
(21.03.09 00:25:04 MSK)

Ответ на: комментарий от Deleted 20.03.09 21:56:47 MSK

> а вас беспокоит возможность некорректного поведения программы из-за возможного целочисленного переполнения int, даже если произойти это может только если программа будет работать без остановки десяток лет?

Сферический псевдокод в вакууме.

int foo()
{
 if(someVariable < INT_MAX)
   return ++someVariable;
 else
   throw new PolniyPizdetsException("this program can not run so long without restart");
}

~~Score-49~~
(21.03.09 00:25:19 MSK)

Ссылка

Ответ на: комментарий от tailgunner 21.03.09 00:23:38 MSK

> Вообще-то в SHA этих мер принято еще больше :)

там приняты криптографические меры.

В UUID приняты административные меры.

Поэтому, при условии соблюдения административных правил, с UUID birthday paradox не работает. А с любым хэшем работает.

dilmah ★★★★★
(21.03.09 00:27:59 MSK) автор топика

Ответ на: комментарий от dilmah 21.03.09 00:27:59 MSK

> с UUID birthday paradox не работает. А с любым хэшем работает.

Мм... это как? Имеется в виду, что хэш от одинаковых данных одинаков?

tailgunner ★★★★★
(21.03.09 00:35:46 MSK)

Ответ на: комментарий от Spectr 21.03.09 00:25:04 MSK

> В Хаскеле монады кошерны - какая тогда разница, какую абстракцию реального мира они представляют?

Ааааа, держите меня трое!!!!!111111 %)

Разница простая - упаковав в трижды кошерную монаду Си-код, ты внес в программу всю номенклатуру проблем Си, включая молчаливое переполнение int.

tailgunner ★★★★★
(21.03.09 00:40:19 MSK)

> И общий вопрос -- как вы относитесь к коду, который by design имеет ненулевую вероятность некорректного поведения?

Отношусь нормально к легко поправимым допущениям, что в 99,9999999% случаев будет работать безошибочно. Пример: подразумевание того, что в /tmp всегда найдётся место для пары мегабайт.

Чувствую себя весьма неуютно, когда приходится применять недоказанный алгоритм или приближённый алгоритм без подсчёта погрешности. Пример: уточнение по Рунге, адаптивные алгоритмы интегрирования.

~~gaa~~ ★★
(21.03.09 00:51:06 MSK)

Ссылка

Ответ на: комментарий от tailgunner 21.03.09 00:40:19 MSK

> Разница простая - упаковав в трижды кошерную монаду Си-код, ты внес в программу всю номенклатуру проблем Си, включая молчаливое переполнение int.

Какой набор слов, а смысла нет! Объясни свою мнимую связь между SSE, языком C, и "молчаливым переполнением int"

Spectr ★★★
(21.03.09 00:51:53 MSK)

Ответ на: комментарий от Spectr 21.03.09 00:51:53 MSK

> Какой набор слов, а смысла нет!

Дислектик?

> Объясни свою мнимую связь между SSE, языком C, и "молчаливым переполнением int"

Вообще-то связал Хаскел и SSE ты, а не я.

tailgunner ★★★★★
(21.03.09 00:54:22 MSK)

Ответ на: комментарий от Deleted 20.03.09 23:31:33 MSK

> Можете себе представить видео декодер на lisp'е? Я нет.

http://augustss.blogspot.com/2009/01/llvm-arithmetic-so-we-want-to-compute-x....

- интересный пример. Правда, не Лисп, а Хаскелл - но всё же.

Spectr ★★★
(21.03.09 00:56:29 MSK)

Ссылка

Ответ на: комментарий от tailgunner 21.03.09 00:54:22 MSK

> языком C

ты явно к нему неровно дышишь. Я про него ничего не писал в посте про Haskell и SSE.

Spectr ★★★
(21.03.09 00:57:41 MSK)

Ответ на: комментарий от Spectr 21.03.09 00:57:41 MSK

>> языком C

>ты явно к нему неровно дышишь. Я про него ничего не писал в посте про Haskell и SSE.

Подставь вместо "Си" "ассемблер" - ничего же не изменится.

tailgunner ★★★★★
(21.03.09 01:02:45 MSK)

Ссылка

Ответ на: комментарий от tailgunner 21.03.09 00:35:46 MSK

> Мм... это как? Имеется в виду, что хэш от одинаковых данных одинаков?

нет.

Это основной пойнт UUID -- он борется с birthday paradox административными методами.

Хороший хэш ведет себя как случайная функция (но, безусловно на одном файле она постоянна, не в этом дело). Поэтому если мы будем брать разные файлы, то для хэшей работает BP -- то есть чтобы добиться повторения нужно взять не 2^160 разных файлов, а порядка 2^80.

С правильным UUID такое не работает, он борется с BP административными методами. Если взять крайний случай, то всем выдает UUID центральный комитет, тогда понятно что никакого BP не будет, потому что центральный комитет будет выдавать последовательные числа. В time- и MAC- based UUID центрального комитета конечно нет, но маки выдаются центральным комитетом, а во вторых время служит центральным комитетом, плюс в рамках одной машины комитетом служит ОС.

dilmah ★★★★★
(21.03.09 01:05:06 MSK) автор топика

Ответ на: комментарий от dilmah 21.03.09 01:05:06 MSK

> birthday paradox

Да что такое этот парадокс применительно к хэшам?

> Если взять крайний случай, то всем выдает UUID центральный комитет

Ну этот случай можно вообще не рассматривать.

> В time- и MAC- based UUID центрального комитета конечно нет, но маки выдаются центральным комитетом, а во вторых время служит центральным комитетом

MAC-и сталкиваются (хотя карты с одинаковыми MAC стараются поставлять в разные регионы), времени в распределенной системе верить нельзя... ну и интересно было бы увидеть анализ вероятности столкновения UUID, конечно. Подозреваю, что он будет сильно выше 2^80.

tailgunner ★★★★★
(21.03.09 01:09:39 MSK)

Ответ на: комментарий от tailgunner 21.03.09 01:09:39 MSK

> Да что такое этот парадокс применительно к хэшам?

http://en.wikipedia.org/wiki/Birthday_attack

phoenix ★★★★
(21.03.09 04:32:52 MSK)

Ссылка

Используй меркуриал - там вероятность такой проблемы намного меньше.

mqspi
(21.03.09 05:46:33 MSK)

Ссылка

Ответ на: комментарий от dilmah 21.03.09 01:05:06 MSK

>не 2^160 разных файлов, а порядка 2^80.

Да, для проекта, содержащего 1180591620717411302826 патчей это довольно серьёзная проблема.

DonkeyHot ★★★★★
(21.03.09 18:45:16 MSK)