Дедупликация на ZFS: есть истории успеха?

Это медленно.

iZEN ★★★★★
(29.07.21 22:24:55 MSK)

Кто-нибудь эффективно использует дедупликацию ZFS?

Не думаю. Зато знаю и имею опыт эффективной дедубликации на обычном XFS с помощью rdfind. Сам понимаешь, что ZFS в такой схеме - лишняя деталь.

anonymous
(29.07.21 22:36:55 MSK)

Ссылка

Использовал дедупликацию в юзкейсе ZFS+NFS+PXE, единственный случай когда оно действительно окупается.

mord0d ★★★★★
(29.07.21 22:47:16 MSK)

это безумно медленно и очень требовательно к объему ОЗУ

~~zgen~~ ★★★★★
(29.07.21 23:49:26 MSK)

Ссылка

Ответ на: комментарий от iZEN 29.07.21 22:24:55 MSK

То, что медленно - ок. А что с уровнем дедупликации?

Harliff ★★★★★
(30.07.21 00:09:21 MSK) автор топика

Ответ на: комментарий от mord0d 29.07.21 22:47:16 MSK

Использовал дедупликацию в юзкейсе ZFS+NFS+PXE, единственный случай когда оно действительно окупается.

Да, интересный кейс…

Harliff ★★★★★
(30.07.21 00:10:40 MSK) автор топика

Ответ на: комментарий от Harliff 30.07.21 00:09:21 MSK

А что с уровнем дедупликации?

Очень зависит от данных. Если это много одинаковых данных, например, джейлы (или прочие контейнеры) или бэкапы (с повторяющейся структурой, например как у tar(1)) — выигрыш будет ощутимым, в остальных случаях только проиграешь, и чем больше данных будет в датасете, тем больше будет проигрыш. Именно по этой причине совершенно бессмысленно (а то и вообще вредно) включать дедупликацию на датасете с какой-нибудь мультимедией или играми.

За подробностями иди по ссылкам.

mord0d ★★★★★
(30.07.21 00:22:24 MSK)

Ссылка

Ответ на: комментарий от Harliff 30.07.21 00:10:40 MSK

PXE

интересный кейс

Самый обычный. Обновлять ОС, раздаваемую по NFS, затея не очень, клоны не всегда решают (например разные релизы; а обновление на следующий релиз заставит разжиреть клон на объём релиза), но даже на разных релизах можно выиграть дедупликацией не меньше половины объёма одного из "контейнеров".

С джейлами/контейнерами можно нарулить thin provisioned с nullfs(5) (OverlayFS) сверху, что избавит от нужды иметь несколько копий одного релиза, а отсутствие проблем которые присутствуют с использованием сети позволяет жонглировать ими как угодно. В этом случае дедупликация нужна только когда есть "толстые" контейнеры или если разные потомки-клоны "пошли разными путями". Если контейнеров мало а их ротация достаточно частая, то дедупликация может пойти во вред.

mord0d ★★★★★
(30.07.21 00:39:28 MSK)

Ссылка

У нас админы на пытались использовать. Очень медленно и очень небольшой выхлоп - отказались.

vtVitus ★★★★★
(30.07.21 21:38:29 MSK)

Ссылка

[code] NAME SIZE ALLOC FREE CKPOINT EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT nextcloud 496G 179G 317G - - 15% 36% 1.25x ONLINE - [/code]

файлы - текст и pdf

anonymous
(30.07.21 23:30:06 MSK)

Ответ на: комментарий от Harliff 30.07.21 00:09:21 MSK

Странный вопрос по уровню дедупликации, собственно.

Есть данные подверженные оной, есть нет.

Вот мой уровень:

# zpool list
NAME   SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
tank  18.1T  16.1T  2.00T        -         -    41%    88%  4.52x    ONLINE  -

Мой уровень: 4,5 раза. И плюс ещё сжатие в полтора раза сжимает :) И так-как данные подобраны соответствующие, то и скорость норм. Юзаю для полных бекапов СУБД

DALDON ★★★★★
(31.07.21 00:29:10 MSK)
Последнее исправление: DALDON 31.07.21 00:29:51 MSK (всего исправлений: 2)

Ответ на: комментарий от anonymous 30.07.21 23:30:06 MSK

1.25x

это просто трата ресурсов в никуда

anonymous
(31.07.21 02:24:38 MSK)

Ссылка

Ответ на: комментарий от DALDON 31.07.21 00:29:10 MSK

Юзаю для полных бекапов СУБД

один из способов применения точно по цели, так сказать. в дедуп ящиках у некоторых конкурентов, типа data domain, rubrik, etc применяется variable block dedup и даже на incremental forever можно получить уровень дедупа 7-8х. а сжимать бэкапы может и база, причём, гораздо эффективнее.

anonymous
(31.07.21 02:38:03 MSK)

Ответ на: комментарий от anonymous 31.07.21 02:38:03 MSK

а, да, зелёный кот передаёт превед с банановой республики.

anonymous
(31.07.21 02:42:41 MSK)

Ссылка

Ответ на: комментарий от anonymous 31.07.21 02:38:03 MSK

Сжатые данные могут дедуплицироваться?

DALDON ★★★★★
(31.07.21 10:17:47 MSK)

zpool list
NAME SIZE ALLOC FREE CKPOINT EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT
new-pool 412G 134G 278G - - 5% 32% 1.02x ONLINE /

игры, бекап гугл диска, бекап корня

~~darkenshvein~~ ★★★★★
(31.07.21 11:06:31 MSK)

какой recordsize/volblocksize?

а какой должен быть, как его считать?

sudo zfs get all|grep -i size
new-pool recordsize 128K default
new-pool dnodesize legacy default
new-pool/backup recordsize 128K default
new-pool/backup dnodesize legacy default

какой объем данных?

винт 420 гб раздел, данных около 130 гб

~~darkenshvein~~ ★★★★★
(31.07.21 11:10:39 MSK)

Ссылка

Ответ на: комментарий от anonymous 31.07.21 02:38:03 MSK

в дедуп ящиках у некоторых конкурентов, типа data domain, rubrik, etc применяется variable block dedup

Вот интересно, в ZFS variable block deduplication запилят когда-нибудь?

Кстати, есть ли опыт использования variable block deduplication в в linux?

Harliff ★★★★★
(31.07.21 18:42:52 MSK) автор топика

Ссылка

Ответ на: комментарий от darkenshvein 31.07.21 11:06:31 MSK

1.02x

Мало; хотя, конечно, это по пулу в целом…

Harliff ★★★★★
(31.07.21 18:46:13 MSK) автор топика
Последнее исправление: Harliff 31.07.21 18:57:00 MSK (всего исправлений: 1)

Ответ на: комментарий от darkenshvein 31.07.21 11:06:31 MSK

Я правильно понимаю, что у тебя на:

игры, бекап гугл диска, бекап корня - включена дедупликация?

DALDON ★★★★★
(31.07.21 22:13:01 MSK)

Ответ на: комментарий от DALDON 31.07.21 10:17:47 MSK

Смотря чем и как сжатые... На простых lz с маленькими словарями ещё может что-то быть, но кто так нынче жмёт? В общем случае, при наличии ещё и энтропийного кодирования, думаю, дедуп упадёт сильно.

GAMer ★★★★★
(31.07.21 22:59:44 MSK)

Ответ на: комментарий от GAMer 31.07.21 22:59:44 MSK

Проверял ради прикола на образах виртуалок пожатых и на выгрузках dt - 1С. Дедуп: 0%.

DALDON ★★★★★
(01.08.21 00:01:53 MSK)

Ответ на: комментарий от DALDON 31.07.21 22:13:01 MSK

да, на всё. тестирую.

~~darkenshvein~~ ★★★★★
(01.08.21 00:45:51 MSK)

Ответ на: комментарий от darkenshvein 01.08.21 00:45:51 MSK

Зря время тратишь :) Только одинаковые данные дедуплицируются, т.е. в общем случае, ну бекапы (и то, с оговоркой). Всё остальное, в общем то трата ресурсов в никуда.

DALDON ★★★★★
(01.08.21 01:18:38 MSK)

Ссылка

Ответ на: комментарий от DALDON 01.08.21 00:01:53 MSK

Как и ожидалось. В dt-шках вроде lzma. Лучше хранить несжатые данные и попробовать поднять размер блока(вроде аж до 16МБ можно, тут и дедупу возможно полегче будет) и выставить сжатие на feature@zstd_compress повыше. Будет сжато конечно не так сильно, как на файловом уровне, но зато будут плюшки zfs.

GAMer ★★★★★
(01.08.21 10:32:26 MSK)

Ответ на: комментарий от GAMer 01.08.21 10:32:26 MSK

Лучше

Цифры то где? Только слова «ни о чём»?

anonymous
(01.08.21 10:36:27 MSK)

Ссылка

Ответ на: комментарий от Harliff 31.07.21 18:46:13 MSK

кстати, как узнать дедап у дочернего тома?
его он не показыват тут

~~darkenshvein~~ ★★★★★
(05.08.21 00:11:05 MSK)

Ответ на: комментарий от darkenshvein 05.08.21 00:11:05 MSK

кстати, как узнать дедап у дочернего тома?

Средствами zfs - никак, ибо дедупликация идёт на уровне пула, а не FS.

Можно примерно прикинуть, исходя из размера пула и FS, где включена дедупликация.

Harliff ★★★★★
(05.08.21 01:08:35 MSK) автор топика
Последнее исправление: Harliff 05.08.21 01:09:14 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от anonymous 31.07.21 02:38:03 MSK

Юзаю для полных бекапов СУБД
один из способов применения точно по цели, так сказать.

Сильно под вопросом насчет цели. Вариант пролюбить н-цать бэкапов разом тоже надо рассматривать. Что с учетом того, что это субд, а не «файлопомойка» может оказаться весьма больно.
ЗЫ Пишу на волне того, что сейчас понадобилось развернуть последовательно несколько ежедневных бэкапов базы месячной давности.

anc ★★★★★
(05.08.21 20:06:03 MSK)

Ссылка

Похожие темы