> Блоки данных нельзя сжать по отдельности, поэтому в ФС сжимаются файлы, состоящие из этих блоков.
Это почему это нельзя отдельные блоки сжать отдельно?
Если жать файлы целиком на уровне ФС, то каким образом вы будете эффективно реализовывать перемещение по файлу, если вам вдруг понадобится переместиться в конец файла перед последним записанным байтом? Весь файл будете распаковывать?
> Разреженные файлы. Естественно, такие вещи имеют много одинаковых блоков сами по себе и ужимаются очень хорошо. Так что дедупликация здесь работает как простое RLE-"сжатие" данных, а сжатие на лету алгоритмом GZIP может ещё больше уменьшить занимаемое файлом место.
В случае разреженных файлов в обычном понимании (то есть имеющих большие последовательности нулей), вовсе нет необходимости эти последовательности нулей хранить. В ZFS именно так и сделано:
> Вопрос что это за содержимое такое, чтобы получить профит от дедупликации?
Например:
- билд-сервер для оравы разработчиков или основанных на одной базе проектов
- виртуализационные среды всякие
- всякие файловые сервисы
- бэкап-серверы для оравы одинаковых машин
Мало?
На тех же хостингах там где всякие phpBB повторяются, потому что не зависит дедупликация на уровне блоков файлов от порядка записи этих файлов :-) Оверселлинг - это не так уж и плохо, поскольку можно дифференцировать цены... Хотите гарантии - получите, но по той же цене, что и раньше. Не смущает дедупликация - пожалуйста, и дешевле.
> Бинарные документы (типа pdf, doc, odt), даже отличаясь в тексте на одну букву, в бинарном виде будут сильно различаться.
Но если этот бинарный документ разослали сотне сотрудников по почте, и они его читать принялись, то во многих случаях его понадобится скачать и где-то временно разместить. Если у каждого отдельный десктоп - то ничего не подедуплицируешь, а если виртуальная машина на одном сервере - то почему бы и нет?
> Клонирование вирт. машин -- производится средствами самих вирт. машин.
Производится-то оно производится, но:
- не всеми, некоторые полагаются на возможности клонирования файловой системы
- эффект от клонирования заметно уменьшается после первого же более-менее крупного одинакового обновления внутри этих виртуальных машин
ЗЫ. Клонирование виртуальных машин средствами самой системы виртуализации - это не пример ли комбайна-все-в-одном? :-) Двойные стандарты они такие ... двойные :-)