LINUX.ORG.RU

4kn и 512e в одном рейд массиве

 


0

1

хай всем

есть 3 винта HGST HUH728080ALN600, размер сектора 4к если добавить к ним ещё один HGST HUH728080ALE600, у которого 512e и создать raid5 из этих четырёх дисков (софтовый линуксовый рейд) - не будет ли каких проблем из за разных размеров сектора?

есть кто реально сталкивался?


Проблем не будет, разве что потеряешь несколько килобайтов, если размеры разделов окажутся разными.

anonymous ()

Нельзя делать raid5 на дисках такого обьёма.

Dimez ★★★★★ ()

Во первых райд 5 на дисках такого объёма нельзя. Во вторых программные райд 5\6, без XOR проца и подпёртой BBU памяти - детский велосипед и тормоза при записи. В третьих, на неоптимизированном под 4к массиве с дефолтными параметрами фс пофиг, на оптимизированном похерится оптимизация.

PS. Реально сталкивался много с чем, софтварные линукс или не линукс, абсолютно не важно какие райды это 0, 1, 0+1 и т.п. максимум. 5\6 - бессмысленное баловство без реального выйгрыша. Хотите 6 - юзайте взрослое железо с правильным количеством дисков.

Jameson ★★ ()
Ответ на: комментарий от Jameson

Во вторых программные райд 5\6, без XOR проца и подпёртой BBU памяти - детский велосипед и тормоза при записи

Процессор xor'ы считает быстрее, чем специализированная железка, если что.

Dimez ★★★★★ ()
Ответ на: комментарий от Jameson

софтварные линукс или не линукс, абсолютно не важно какие райды это 0, 1, 0+1 и т.п. максиму

Первый рейд без батарейки и кеша может рассинхронизироваться как нефиг делать. Да еще будет считать что все окей.

steemandlinux ★★★★★ ()

На таких дурах надо ZFS юзать или нормальный контроллер с raid 6 или 60.

steemandlinux ★★★★★ ()
Ответ на: комментарий от Deleted

Фантастическое время ребилда. Огромный шанс потерять вообще все.

Ща медвед подробнее скажет.

dk- ()
Ответ на: комментарий от Deleted

Можно узнать почему?

Резко взлетает шанс накрыть ещё один хард в то время, как рейд ребилдится от падения первого.

devl547 ★★★★★ ()
Ответ на: комментарий от devl547

Немного не так. Не шанс «накрыть ещё один хард», хотя он тоже приличным становится, а шанс того, что при ребилде массива проскочит ошибка (а тем более на холодных данных) после какого-то объёма составляющих дисков (сейчас точно не помню, вроде бы 4TB) 100%.

Dimez ★★★★★ ()

При разбиении выставлять размер блока ФС 4 килобайта, это должно нейтрализовать последствия

ism ★★★ ()
Ответ на: комментарий от Dimez

А если раз периодически (например раз в неделю) прогонять чтение по всем дискам, чтобы такие ошибки отлавливать заранее?

Legioner ★★★★★ ()
Последнее исправление: Legioner (всего исправлений: 1)
Ответ на: комментарий от Dimez

То есть диски 4TB без рейда использовать совсем труба, они вообще сами сразу дохнуть начинают?

slapin ★★★★★ ()
Ответ на: комментарий от EvgGad_303

12 для десктопного шлака

Для пяти дисков вероятность получения невосстановимой ошибки чтения будет равна 1-(1-1/25)5=18.5%. 500ГБ по нынешним меркам - не очень много, в ходу диски по 1, 2, 3 и даже 4 терабайт. Для массива 8x1ГБ получаем 44.2%, а для «супер-большой-СХД-на-всю-жизнь» из 24-х десктопных дисков по 3ТБ получается шансов и вовсе не остается - 99.8%

Dimez ★★★★★ ()
Ответ на: комментарий от Legioner

Подпорка небольшая. AFAIK все raid'ы (кроме raidz и, может btrfs, её не щупал) при нахождении невосстановимой ошибки на одном из секторов жёсткого диска деградированного raid5 (raid5 без одного диска = raid0) разваливают массив. Сам натыкался :(

Dimez ★★★★★ ()
Ответ на: комментарий от slapin

То есть диски 4TB без рейда использовать совсем труба, они вообще сами сразу дохнуть начинают?

См выше. У десктопных дисков UER=10^14, у nearline - 10^15, у enterprise - 10^16. Если при хранении, скажем, 2TB фотографий и копировании с диска на диск тебе, грубо говоря, не важны 2-5 фотографии в 3 года, то можешь хранить их на десктопных дисках без raidz.

Dimez ★★★★★ ()
Ответ на: комментарий от Dimez

И зачем ты мне это написал? Я это и так знаю, тем более что речь была про TB.

EvgGad_303 ★★★★★ ()
Ответ на: комментарий от EvgGad_303

Поправить не успел.

Потому-что, для десктопных дисков не 12TB/диск, а гораздо меньше, к сожалению.

Dimez ★★★★★ ()
Ответ на: комментарий от Dimez

То есть на современных дисках лучше ничего не хранить, я так понимаю. Или покупать корзины и ставить диски по 500GB. Или уходить на SAS, где пока оно еще живое. Так?

slapin ★★★★★ ()
Ответ на: комментарий от Dimez

Подпорка небольшая. AFAIK все raid'ы (кроме raidz и, может btrfs, её не щупал) при нахождении невосстановимой ошибки на одном из секторов жёсткого диска деградированного raid5 (raid5 без одного диска = raid0) разваливают массив. Сам натыкался :(

Почему небольшая? Если на прошлой неделе все диски читались, то за 7 дней два диска вряд ли откажут одновременно. Т.е. либо при очередной проверке один диск откажет, тогда его меняем и делаем ребилд и вот тут вероятность того, что за 7 дней один из оставшихся 3 дисков откажет, уже не должна быть значима. Либо во время работы один диск откажет, опять же тогда прошло меньше 7 дней с последней проверки и вероятность того, что за эти три дня отказал ещё один диск, опять же не должна быть велика.

Legioner ★★★★★ ()
Ответ на: комментарий от Dimez

Суть расчета я понял. Но можешь чего «подробнее и с выкладками» кинуть на русском? Так, из любопытства.

Десятку на 3-4тб винтах уважаешь же?

Процессор xor'ы считает быстрее, чем специализированная железка, если что.

Но ведь не просто так же железки юзают, не? Да и условный 60+HS. Если уже ЪЪ.

dk- ()
Ответ на: комментарий от Legioner

Если на прошлой неделе все диски читались, то за 7 дней два диска вряд ли откажут одновременно.

Ещё раз напишу - не обязателен отказ сразу двух дисков. Достаточно отказа одного диска и ошибки одного блока на одном диске на оставшемся деградированном raid5 (который == raid0)

Dimez ★★★★★ ()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от slapin

Да и я так понимаю пофиг какой рейд - на 0, 1, 2 те же самые проблемы. На 5-м cool story обычно про разгильдяйство, типа у меня диск выпал из массива, сидел на двух, а тут ещё один сдох и всё накрылось... или как-то так. Понятное дело, что не надо в рейд ставить диски такие, что вероятность сбоя при ребилде будет 100%. Тут надо поприличнее что ставить. По факту у меня 3 5-х рейда используются, первый ещё на SCSI (760GB x 5), второй - на SATA 500GB x 5, и новый на SAS (1TB x 5), сбоев при ребилде не было ни разу ещё.

slapin ★★★★★ ()
Ответ на: комментарий от Dimez

Ни разу не экспулатировал RAID5 с 3 дисками, это по-моему опасно.

slapin ★★★★★ ()
Ответ на: комментарий от dk-

Суть расчета я понял. Но можешь чего «подробнее и с выкладками» кинуть на русском? Так, из любопытства.

http://blog.aboutnetapp.ru/archives/373

http://true-system.blogspot.ru/2013/04/mtbf-afr-uer-raid.html

Десятку на 3-4тб винтах уважаешь же?

Неа, уж очень много дорогого места теряется. Дома 4x3Tb raidz (и бэкап в ДЦ)

Но ведь не просто так же железки юзают, не?

Конечно. Поэтому и циски юзают, а не писюки - потому, что народ готов платить за законченное решение. В случае аппаратного контроллера:

1) Автоматически по расписанию делается проверка холодных данных (обычно по выходным), по-умолчанию включена.

2) При сбое диска контроллер выдаёт по SES команду бэкплейну зажечь красный светодиод над сбойным диском и ПИЩАТЬ!

3) При замене сбойного диска надо просто вынуть сбойный и вставить новый, ребилд запустится самостоятельно.

В случае софтрайда:

1) Проверку холодных данных (SCRUB) надо самому рисовать на bash/python/etc и засовывать в cron

2) При сбое диска ничего не происходит, если настроен мониторинг, уходит письмо одмину (я так в 2005м году чуть не просрал данные, SCSI-диск в зеркале помер и сервер на одном крыле почти полгода жил)

3) При замене сбойного диска надо самостоятельно добавить новый диск в существующий массив.

Dimez ★★★★★ ()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Dimez

Дома 4x3Tb raidz (и бэкап в ДЦ)

Напомни в чем там суть от десятки? Место да... Но я дешевые десктопные беру. Имею реально в запасе на замену. И репетировал отказ. В микросервере.

А бэкап терабайтов из ДЦ это муторно дорого и долго :)

dk- ()
Ответ на: комментарий от dk-

Напомни в чем там суть от десятки?

raidz == raid5, но без детских проблем. Вот на русском: https://www.stableit.ru/2010/08/raid-z.html

А бэкап терабайтов из ДЦ это муторно дорого и долго :)

Когда в ДЦ честный гигабит и дома честные 200 мегабит - не так муторно, дорого и долго :)

Dimez ★★★★★ ()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Dimez

У меня коллега в Сибири с обработкой помогает. Иногда 1тб в неделю через 60мбит гоняем (сырья, ей; назад я только файлы настроек получаю). Работает, прикольно. Несколько лет назад и не мечтал бы. Но один хрен...

dk- ()
Ответ на: комментарий от Dimez

Похоже я путаю отказ диска с отказом одного блока, почему-то думал, что если хоть один блок отказал — диск идёт на гарантийный обмен. Похоже это не так.

Legioner ★★★★★ ()
Ответ на: комментарий от Legioner

А каким боком гарантийный обмен к сохранности данных на raid5?

Dimez ★★★★★ ()
Ответ на: комментарий от slapin

Ни разу не экспулатировал RAID5 с 3 дисками, это по-моему опасно.

raid5 из трёх дисков наиболее безопасный raid5, при прочих равных условиях.

King_Carlo ★★★★★ ()
Ответ на: комментарий от Dimez

1) Автоматически по расписанию делается проверка холодных данных (обычно по выходным), по-умолчанию включена.

Не везде и не всегда.

2) При сбое диска контроллер выдаёт по SES команду бэкплейну зажечь красный светодиод над сбойным диском и ПИЩАТЬ!

Если он есть - этот бэкплан. Пищать - да, функция нужная, но в удаленной серверной за парой дверей с уплотнением - бесполезна почти полностью. Разве что кондиционеры оценят.

3) При замене сбойного диска надо просто вынуть сбойный и вставить новый, ребилд запустится самостоятельно.

Сказки. Ребилд запуститься автоматически, если у тебя был hotspare к массиву (или вобще на весь рейд). Во всех остальных случаях - ходим руциями в управлялку и тыкаем рейд носом.

1) Проверку холодных данных (SCRUB) надо самому рисовать на bash/python/etc и засовывать в cron

Она уже давно нарисована и лежит в дистрибутиве mdadm.

2) При сбое диска ничего не происходит, если настроен мониторинг, уходит письмо одмину (я так в 2005м году чуть не просрал данные, SCSI-диск в зеркале помер и сервер на одном крыле почти полгода жил)

Оно точно так-же подключает hotspare если он есть.

3) При замене сбойного диска надо самостоятельно добавить новый диск в существующий массив.

А в железном рэйде не надо?

Сказочник, блин.

Заодно - плюсы mdadm над железным райдом:

1 - можно всегда диски перенести на другую аппаратную платформу. Хоть на mips с штеуда. В случае железяки - куда прикажете втыкать плату PCI-X из внезапно сдохшего сервера?

2 - Управление всё на поверхности, без всяких там интерфейсов графических. Управлялки всеми железными рейдами - трэш и ургар. Почти все в бинарном виде, хотят то железную консоль то старые плюсовые библиотеки. Хорошо, что еще перезагружаться не надо, чтоб попасть в консольку.

3 - S.M.A.R.T. В случае с железякой варьируется - от тупого SMART Ok на каждый диск, с промежуточным - вот все 10 параметров стандартных (и да, мы можем их только в XML) до полноценного проброса команды. Для mdadm - никаких проблем.

4 - Управление TLER/ERC.

5 - Возможность форсированно завести битый рейд.

6 - Для использования 4k дисков - не надо покупать новый рейд.

7 - Возможность заскриптовать любое телодвижение по любому эвенту от массива. Хочешь - повесил себе snmpd и выдавай состояние, хочешь - почту пиши, хочешь - трапы/SMS шли.

LynxChaus ()
Ответ на: комментарий от LynxChaus

Сказки. Ребилд запуститься автоматически, если у тебя был hotspare к массиву (или вобще на весь рейд). Во всех остальных случаях - ходим руциями в управлялку и тыкаем рейд носом.

Чего ты мне рассказываешь, я этим летом дисков 10 уже, наверное, поменял в разных серверах на разных контроллерах. Везде из коробки стоит

/opt/MegaRAID/storcli/storcli64 /c0 show all|grep Auto\ Rebui
Auto Rebuild = On

Dimez ★★★★★ ()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Jameson

почему нельзя, где можно почитать? сейчас у меня там крутятся 4 диска по 5тб, всё отлично. софтварный raid5 даёт выигрыш при записи нормальный. что изменится, если я вставлю туда же 4 диска по 8тб?

ioan ()
Ответ на: комментарий от Dimez

Чего ты мне рассказываешь, я этим летом дисков 10 уже, наверное, поменял в разных серверах на разных контроллерах.

Не одним мегарейдом едины. В ближайших адаптеках не наблюдаю авторебилда.

По остальным пунктам претензии есть?

LynxChaus ()
Ответ на: комментарий от LynxChaus

Ближайший адаптек был нещадно выкинут и заменён на lsi hba и zfs поверх него. Ты меня с кем-то путаешь, у меня вообще никаких претензий к софтрайдам, непонятно, зачем ты крестовый поход объявил в мою сторону.

Dimez ★★★★★ ()
Ответ на: комментарий от Dimez

Ближайший адаптек был нещадно выкинут

за что? Вполне себе нормальная железка. LSI гораздо говенней (по крайней мере старые версии). Да и за поглощение и убиение 3ware - им большой минус в карму.

Ты меня с кем-то путаешь, у меня вообще никаких претензий к софтрайдам, непонятно, зачем ты крестовый поход объявил в мою сторону.

Какой крестовый поход? Я просто обосновал свою точку зрения на софт-рейды.

И вообще - есть сторонники 2х подходов - купить за подорого на дядины деньги убер-железку которая только что кофе не варит (ну за отдельную лицензию может и сможет), натырцать чекбоксы в красивом меню и радоваться. А есть второй подход - собрать самому всё из палок и изоленты (такой-же что и в железках выше - но вам её не покажут) попутно обучившись тому, как и через что оно работает. Да, кнопок жать надо много больше - зато итоговый результат гораздо лучше.

И с моей точки зрения - даже авторебилд это сугубо контролируемый админом процесс, а не облегчение работы для инжинегра «вынь 5й диск слева (мигает красным) и воткни диск с полки».

LynxChaus ()
Ответ на: комментарий от LynxChaus

за что? Вполне себе нормальная железка.

Вешал наглухо раз в 5-10 перезагрузок сервер на POST. Хотя прошивка последняя, в логах ничего. Более старые адаптеки вообще вешались в процессе работы от сбоя диска и потом писали kernel hang.

Dimez ★★★★★ ()
Ответ на: комментарий от Dimez

я пропользовался адаптеками последние лет 8, начиная от 2405 и заканчивая 81605. проблем никаких не возникало. брал несколько раз LSI, но он работает не на всех мамках почему-то. в брендовых серваках работает, в самосборе зачастую или вообще не детектится, или начинаются какие-то проблемы. причём адаптек на этом же самосборе пашет на ура.

ioan ()
Ответ на: комментарий от Dimez

Ну да, гораздо, на каждые 11,5TB, в приведённых тобой ссылках об этом тоже написано.

EvgGad_303 ★★★★★ ()
Ответ на: комментарий от Dimez

Вешал наглухо раз в 5-10 перезагрузок сервер на POST.

С adaptec много было приколов, с sas-seagatов из compability list контроллер странно интерпретировал smart и считал почти мёртвые диски вполне себе исправными со всеми вытекающими последствиями.

King_Carlo ★★★★★ ()
Ответ на: комментарий от King_Carlo

Увы, вполне себе отличные энтерпрайз хитачи...

Dimez ★★★★★ ()
Ответ на: комментарий от EvgGad_303

Вообще-то там говорилось про объём массива, а не про объём одного диска.

Dimez ★★★★★ ()
Ответ на: комментарий от Dimez

отличные энтерпрайз хитачи...

Перешёл тогда на WD RE (и sas и sata), не пожалел ни разу.

King_Carlo ★★★★★ ()
Ответ на: комментарий от EvgGad_303

Ну и что? У тебя каждый десктопный диск на 12TB выдаёт одну ошибку. Если дисков много, вероятность почти суммируется. Возьми самый распространённый вариант - 4 диска по 3-4TB и RAID5 на них и посчитай вероятность того, что на raid5 появится хотя бы одна ошибка при ребилде при замене диска.

Dimez ★★★★★ ()
Ответ на: комментарий от Dimez

Вот что ты опять муйню какую-то выдумываешь? Кол-во дисков влияет на вероятность отказа массива, но никак не влияет на то, что тебе надо прочитать 12TB(при 10^14), чтобы поймать ошибку.

EvgGad_303 ★★★★★ ()
Ответ на: комментарий от EvgGad_303

но никак не влияет на то, что тебе надо прочитать 12TB(при 10^14), чтобы поймать ошибку.

Т.е. ты гарантируешь, что перед стартом ребилда на всех дисках только что проскочило по ошибке и поэтому надо считать ровно 12Тб с каждого? :-))

Dimez ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.