Посоветуйте быстрый хеш директории на современных цп

подкаталоги+файлы сортировать по именам (если имена учитываются, иначе по размерам),считать самую быструю и короткую контрольную сумму какая только найдётся. crc32 по всему включая мета-данные (имя+размер+даты_если_важны+exif_для_картинок), содержимое полностью только для коротких файлов, для больших - первые N страниц+последние K

алг.crc можно и не выбирать - действительно crc32 как самый стандартный и повсеместно имеющийся. Арифметика рассчётов не будет тонким местом. Вот IO - да. Считать лучше в несколько потоков и возможно даже заходов (а вдруг какой файл поменятся пока считаете остальные ?)

потом уже, при совпадении CRC, уже делать окончательное и точное сравнение для выявления дубликатов.

MKuznetsov ★★★★★
(16.06.22 01:00:38 MSK)
Последнее исправление: MKuznetsov 16.06.22 01:02:12 MSK (всего исправлений: 1)

Ответ на: комментарий от MKuznetsov 16.06.22 01:00:38 MSK

На директорию, рекурсивно, включая файлы. Имена и метаданные не нужно учитывать.
Файлы средние.

~~naKovoNapalBaran~~ ★
(16.06.22 01:35:23 MSK) автор топика

Не нужно все учитывать, директории под моим контролем, хочу чтобы при изменении файла в директории менялся хеш всей директории.
Дата изменения файла не подходит.

~~naKovoNapalBaran~~ ★
(16.06.22 01:38:47 MSK) автор топика

Ссылка

Ответ на: комментарий от naKovoNapalBaran 16.06.22 01:35:23 MSK

На директорию, рекурсивно, включая файлы. Имена и метаданные не нужно учитывать. Файлы средние.

рекурсия ненужна при рассчёте crc. образно - можно даже на bash: берёшь список вложенных от find, отдаёшь на несколько потоков счёта sort | crc, получаешь кортежи {inode_родителя inode_каталога имя_каталога crc_побыстрому} ;

два каталога подлежат детальному сравнению если: совпало crc, имена и crc непосредственно дочерних

MKuznetsov ★★★★★
(16.06.22 09:04:38 MSK)
Последнее исправление: MKuznetsov 16.06.22 09:05:55 MSK (всего исправлений: 1)

Ответ на: комментарий от MKuznetsov 16.06.22 09:04:38 MSK

cksum получается программа.

~~naKovoNapalBaran~~ ★
(17.06.22 03:08:51 MSK) автор топика
Последнее исправление: naKovoNapalBaran 17.06.22 03:11:12 MSK (всего исправлений: 1)

Ответ на: комментарий от naKovoNapalBaran 17.06.22 03:08:51 MSK

cksum - подсчёт КС. Вы её (или аналогичную) будете использовать во все поля при выявлении «дубликатов каталогов»

предложен просто метод её использования (с упором что считать в несколько потоков) и что рекурсии не сильно много, только чтоб получить список файлов а это find.

И выше по теме, что считать CRC всего файла не особо как надо. Заголовок+Хвост+МетаДанные. То есть в сумме данных немного, всё быстро

MKuznetsov ★★★★★
(18.06.22 01:42:26 MSK)