Удалить одинаковые файлы

есть директория с поддиректориями (с музыкой), есть двойные файлы. как найти "двойников"? (и стереть)

Ссылка

Пробегаешь все файлы в директории, пишешь куда-нибудь имя файла и его хэш (md5sum подойдёт), потом из результата выдираешь файлы с одинаковыми хэшами.

Zmacs ☆
(22.10.06 08:28:15 MSK)

Ответ на: комментарий от Zmacs 22.10.06 08:28:15 MSK

Не совсем так. Хэши считать - дело накладное. Я в аналогичной ситуации сортировал по длине, искал файлы с одинаковой длиной, и сравнивал только их (причём просто командой cmp, без всякого md5 - это тоже гораздо быстрее, так как разные файлы оказываются разными в самом начале).

Teak ★★★★★
(22.10.06 08:49:35 MSK)

Ответ на: комментарий от Teak 22.10.06 08:49:35 MSK

Ну и так можно

Zmacs ☆
(22.10.06 10:03:03 MSK)

Ответ на: комментарий от Zmacs 22.10.06 10:03:03 MSK

Не просто можно, а быстрее на порядки. :)

Teak ★★★★★
(22.10.06 10:45:32 MSK)

Ответ на: комментарий от Teak 22.10.06 10:45:32 MSK

А вдруг найдется 1000 файлов одного размера.
Сколько по-парных (как пишется это слово?) сравнений надо будет сделать?

~~sdio~~ ★★★★★
(22.10.06 11:28:53 MSK)

Ответ на: комментарий от sdio 22.10.06 11:28:53 MSK

Я думаю мы говорим про типичную ситуацию, типа куча музыки или картинок с некоторым бардаком и совпадениями. А если есть вероятность, что у многих файлов одинаковый размер, тогда конечно может оказаться удобнее хэшами. Вообще, я больше практик. :) С теоретической точки зрения, оба подхода имеют право на существование при различных начальных условиях, а без их указания задача вообще некорректна. :) Так что прошу считать, что я включил телепатию, чтобы угадать более подробно условия задачи. :)

А то можно ещё порассуждать, что для одинаковых файлов мы начнём хэши считать, причём не md5, а что-нибудь попроще, и не от всего файла, а от первого килобайта (у меня в роли контрольной суммы собственнно и выступала длина файла, при моих допущениях число совпадений по этой контрольной сумме невилико, а проверять при совпадении контрольной суммы надо всё равно), и так далее...

Короче говоря тут спор по сути только о том, какую конкретно выбрать контрольную сумму для первого прохода. :) Длина файла считается гораздо быстрее, чем md5, вот. :)

Teak ★★★★★
(22.10.06 11:41:53 MSK)