LINUX.ORG.RU
ФорумAdmin

Поиск дубликатов файлов


1

0

Есть большой ФС с терабайтами различных данных. Появилось желание найти файлы, представленные там более чем в одном экземпляре.

Т.е. нужна какая-то прога, которая будет считывать хэши md5 (sha1, etc) файлов и потом из сравнивать.

Прога должна быть консольная, иксов на сервере нет. Есть такая?

anonymous

Re: Поиск дубликатов файлов

> Прога должна быть консольная, иксов на сервере нет. Есть такая?

Есть, причем их много. Зовется bash, find и md5sum. В первой кнопочками говоришь что делать, и она с помощью второй и третьей все офигенно круто делает :-)

no-dashi ★★★★★ ()

Re: Поиск дубликатов файлов

find /path/to/dir/ -type f | xargs -d\\n md5sum | sort | uniq -D -w 32 >duplicates.txt

работать, правда, будет долго (ибо md5) =)

lodin ★★★★ ()
Ответ на: Re: Поиск дубликатов файлов от hizel

Re: Поиск дубликатов файлов

+1, оно сначала по размерам ориентируется, только после md5sum

еще можно сначала по mime type (команда file) отобрать файлы, т.к. md5sum дорогая операция.

sdio ★★★★★ ()
Ответ на: Re: Поиск дубликатов файлов от lodin

Re: Поиск дубликатов файлов

>будет долго (ибо md5) =)

md5 относительно быстрый алгоритм, всё упрётся в диски. Я бы брал первые или последние 10кб файла, считал md5 для этого куска и уже сравнивал между собой куски чтобы винты сильно не гонять на больших файлах.

true_admin ★★★★★ ()

Re: Поиск дубликатов файлов

Спасибо, fdupes - то, что доктор прописал. Судя по всему чекает md5 только у тех файлов, у которых совпал размер.

anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.