LINUX.ORG.RU
решено ФорумAdmin

zfs, raid, 4 диска, бекап и дилемма

 , ,


0

2

Господа, так как в недавней теме про proxmox freenas и zfs меня отпинали за любовь к raid0, я всё же пересмотрел свою политику и таки создал аж raidz2 на 4-х дисках по 3Тб. Попутно, разбираясь с багами из прошлой темы я наткнулся на прелюбопытнейшую статью https://calomel.org/zfs_raid_speed_capacity.html, там парни достали откуда-то очень много дисков и всячески их соединяли и тестировали. Вот небольшая выдержка вокруг которой будут вращаться дальнейшие умозаключения:

 
lz4=off
2x 4TB, mirror (raid1),        3.7 TB,  w=106MB/s , rw=50MB/s  , r=488MB/s
4x 4TB, raidz2 (raid6),        7.5 TB,  w=204MB/s , rw=54MB/s  , r=183MB/s
lz4=on
lz4   2x 2TB    raid1  mirror   1.8 terabytes ( w=398MB/s , rw=354MB/s , r=1537MB/s
lz4   7x 2TB    raid7, raidz3   7.1 terabytes ( w=507MB/s , rw=436MB/s , r=1532MB/s )
там почему то забыли затестить raidz2 из 4=х дисков с lz4 так что я просто взял raidz3 из 7-ми
Итак, я имею всего 4 диска и вижу 2 основных пути:
Первый. Сейчас я собрал raidz2, получил отказоустойчивость сервиса с возможностью потерять любые 2 диска и имею 6ТБ рабочего пространства (ну 5.1 на самом деле, но упростим расчёт). Однако у меня не осталось дисков для внешнего бекапирования, всё таки держать всё в одной корзине опасно: пожар там, наводнение, кулхацкер.
Как видно из приведённых измерений с lz4 скорости записи и чтения довольно неплохо выравниваются между разными рейдами, плюс я планирую использовать для кэша NVME-ssd, что в теории позволит добиться от шпендельных дисков более линейных режимов работы. Таким образом немногим хуже видится второй путь - собрать miror из двух дисков на рабочей машине, и ещё один mirror из двух на другой машине для бекапирования. Ухудшается отказоустойчивость основного сервиса, теперь можно потерять только 1 диск, однако общая надёжность возрастает - при потере любых трёх дисков информация остаётся в сохранности, ещё из минусов можно отметить уменьшение рабочего объёма с 6Тб до 3Тб, но это не очень критично, рабочей информации у меня ~1Тб
Что думаете по этим двум схемам и приведённому тестированию?



Последнее исправление: poedyatel (всего исправлений: 8)

Второй вариант + снапшоты с нужной глубиной на рабочем и бэкапном сервере.

King_Carlo ★★★★★
()

такое ощущение, что ты купил 4 диска и теперь пытаешься их притулить хоть куда-то.
ну серьёзно, подумать заранее, решить сколько дисков ты готов потерять и, например, взять больше но с меньшим объёмом, если бюджет ограничен?
а теперь у тебя пожар, наводнение, кулхацкеры и спасёт тебя только амазон, но судя по всему на него денег не выделили тоже, иначе можно было бы и с дисками порешать.
засунь всё в одну корзину и если что сменишь паспорт и место проживания.

system-root ★★★★★
()
Ответ на: комментарий от post-factum

Ок, грамматику поправил =)

такое ощущение, что ты купил 4 диска и теперь пытаешься их притулить хоть куда-то. ну серьёзно, подумать заранее...

заранее и было подумано и решено, однако общественность схему осудила и пришлось переиграть. По результирующему пространству (3тб и 6тб) подходят оба варианта, вопрос практичности и лучшего выбора в плане надёжности при заданных начальных условиях.

poedyatel
() автор топика

Ну очевидно

и ещё один mirror из двух на другой машине

в другом кабинете, другом здании, городе, стране...

Что думаете

А что тут думать, определить требования, расставить приоритеты, и всё станет ясно. Важнее тебе отказоустойчивость, даунтайм или уязвимость к падению метеорита на сервер... )

GAMer ★★★★★
()
Ответ на: комментарий от GAMer

ещё один mirror из двух на другой машине

в другом здании.

А что тут думать, определить требования, расставить приоритеты

Да, я понимаю что в общем то я лучше других знаю, что мне нужно, возможно я неправильно задал вопрос. Суть в том, что я считаю вторую схему более надёжной (потому что массивы mirror проще, есть разделение на 2 машины и разделение географическое) и хотел убедится что не ошибаюсь, решив перейти на неё с первой. Обе схемы, в принципе, защищены от даунтайма, но с разной силой. Конечно можно докупить ещё 1 диск на 6Тб для сервера-бекапирования, не таких уж он и космических денег стоит, и добавить первой схеме преимущества разделения на 2 машины и по географии, но денег всегда не хватает и возможно стоит потратиться на что-то другое или вовсе не тратить.

poedyatel
() автор топика
Ответ на: комментарий от Minona

make raid10 and not fucking self brain

- Первая схема: 6Тб, защита от смерти любых двух дисков, нет раздела по географии и машине
- вторая схема: 3Тб, защита от смерти любых 3-х дисков, защита по географии и машине
- raid10: 6Тб, нет защиты по географии и машине, гарантированная защита только при смерти 1 диска, при смерти двух дисков из разных страйпов эпик фейл.

poedyatel
() автор топика
Ответ на: комментарий от poedyatel

при смерти двух дисков из разных страйпов эпик фейл.

Это raid01, и так не надо делать, если ты хочешь иметь возможность расширить пул в дальнейшем, просто добавив зеркало в массив.

anonymous
()
Ответ на: комментарий от poedyatel

какое отношение география имеет к типу массивов я нихрена нипонял

если тебя интересует гарантированная защита от смерти большинства дисков делай зеркало из всех 4-х или зеркало из 3-х + хотсвап

Minona ★★☆
()
Ответ на: комментарий от Minona

второй путь - собрать miror из двух дисков на рабочей машине, и ещё один mirror из двух на другой машине для бекапирования

это и есть защита по географии и «по машине», тоесть в случае потери основного сервера по различным причинам от катастрофы до вторжения кулхацкеров вторая машина должна уцелеть (при условии расположения в другом месте и защиты от лёгкоко проникновения с основного сервера).

Это raid01

а это по барабану в какой последовательности собрать 4 диска, хоть сначала два страйпа и потом из них зеркало, хоть вначале два зеркала, а потом из них страйп - всегда есть комбинация потери двух дисков которая фейлит всё полностью. В первом случае это два диска из разных страйпов, во втором два диска составляющих зеркало и являющихся второй половиной общего страйпа.

poedyatel
() автор топика
Ответ на: комментарий от poedyatel

ясна, ну делай тогда зеркало и его реплику на другую машину

Minona ★★☆
()
Ответ на: комментарий от poedyatel

Если рассматривать последовательный падеж дисков, то raid01 никогда не выживает при потере второго диска. raid10 из 4 дисков выживет 1/3 случаев выхода из строя 2 диска.

anonymous
()
Ответ на: комментарий от anonymous

выживет 1/3 случаев

Что-то я не то посчитал. Наоборот, умирает в 1/3 случаях, а выживает в 2/3.

anonymous
()
Ответ на: комментарий от anonymous

Ну конкретные цифры уже не так важны, главное что есть вероятность фейла при смерти двух дисков, а у raidz2 её нету, по остальным озвученным параметрам они совпадают, так что raid10 определённо хуже. Возможно скоростные характеристики у них окажутся разными, в приведённом тесте кажется не было такой связки, думаю даже если raid10 и выйдет быстрее это однозначно не стоит риска, особенно учитывая какая там разница выходит при использовании lz4

poedyatel
() автор топика
Ответ на: комментарий от poedyatel

Серверную материнку и память с коррекцей ошибок уже прикупил? Щас бы перелопачивать данные по несколько раз всякими нетривиальными алгоритмами и боятся, что узким местом окажется вход из строя 2-го диска в массиве.

anonymous
()
Ответ на: комментарий от anonymous

Такими методами дойдём до записи на бумаге =) А что, есть основания не доверять lz4? Я просто не встречал (но и не искал специально) ну за исключением случаев когда ССЗБ, вон сколько примеров как люди RAID6 теряют и потом на форумах многостраничные топики, и никто ещё от RAID не отказался.

poedyatel
() автор топика
Ответ на: комментарий от poedyatel

Симметричный вопрос: а что есть основания не доверять жестким дискам? Говорят, даже с жабаскрипта научились портить ячейки памяти. Жесткий диск - (условно) самодостаточная система с контролируемой надежностью. Ты уверен, что твой бутерброт из слоев абстракции на мелтдаунах более надежен чем один диск? И надо ли как-то пытаться уменьшить количество абстракций?

anonymous
()
Ответ на: комментарий от anonymous

анон, где ты в ZFS нашёл бутерброд из абстракций? там одна абстракция — это ZFS, в отличии от обычного mdadm->lvm->ext4 (3шт)

system-root ★★★★★
()
Ответ на: комментарий от anonymous

чёго ты бутербродкаешь мне тут? пиши без лозунгов, по делу. или не пиши, всё равно никто не узнает что ты кот.

system-root ★★★★★
()
Ответ на: комментарий от system-root

Кулинарный критик. Ясно за что ты получил три мишленовские звезды, конечно же за кулинарные дела. Успехов.

anonymous
()
Ответ на: комментарий от poedyatel

Raid5 + Amazon Glacier

При вылете одного времени хватит залить дифф относительно старого бекапа в облако.

9ТБ в твоем распоряжении.

timdorohin ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.