Задача: нужно быстро найти среди довольно большого количества файлов файлы с одинаковым содержимым.
Предполагаемое решение: посчитать хэш для файлов с одинаковым размером -> сравнит -> профит.
Вопрос: какой алгоритм хэширования лучше всего подходит для данной задачи? Насколько велика вероятность коллизий при этом? (Побайтовое контрольное сравнение делать не хочется.)
Свои мысли: использование MD5 или более криптостойких алгоритмов счимтаю пустой тратой вычислительных ресурсов, т.к. защита от злоумышленников, пытающихся устраивать коллизии специально, не нужна. Пока была мысль использовать CRC-64.