LINUX.ORG.RU
ФорумAdmin

mdadm raid-5, сбойный диск и загрузка

 , , ,


0

1

Удивило поведение mdadm - если при загрузке системы отсутствует один диск, то массив переходит в неактивное состояние и соответственно не удается примонтировать файловую систему и загрузить операционку. RAID-5 позволяет работать работать при отсутствии одного диска и по логике массив должен продолжить работать в degraded состоянии, ругаясь в логах и сообщениях про отсутствующий диск. По опыту работы с аппаратными дисковыми контроллерами это и происходит. Подозреваю что и в других отказоустойчивых типах raid (1/6/10/...) mdadm будет переводить массивы в inactive. Почему mdadm вообще отключает массив?

Если пересобрать руками:

sudo mdadm --stop /dev/md0
sudo mdadm --assemble /dev/md0 --run
то массив продолжает работать без одного диска, но поведение mdadm при загрузке явно не логичное.

Может есть какие-нибудь опции которые позволяют работать mdadm как надо?

★★

Скорее всего ваша проблема в initrd (initramfs) скриптах, которые собирают raid. Вобще легко гуглится, что есть (или была такая опция) и был такой баг, что она не работала...

И есть мнение, что если админ «проспал» выпадение диска из md-raid до перезагрузки системы, то хоть так он про это узнает, до того, как сломается ещё один накопитель.

mky ★★★★★ ()
Ответ на: комментарий от mky

И есть мнение, что если админ «проспал» выпадение диска из md-raid до перезагрузки системы, то хоть так он про это узнает, до того, как сломается ещё один накопитель.

Интересный способ. А посылать сообщения по электронной почте о проблемах с массивом теперь не принято?

Serge10 ★★★★ ()
Ответ на: комментарий от Serge10

По опыту работы с аппаратными дисковыми контроллерами это и происходит.

Который с бОльшей степенью вероятности так же на ребуте встанет «раком» и попросит нажать «волшебную кнопочку».

Интересный способ. А посылать сообщения по электронной почте о проблемах с массивом теперь не принято?

С учетом raid5 он(способ) не до конца описан. Если массив загружен, то можно узнать об этом по звонкам юзверей :) Да и в целом 5-й рэйд не для критичных данных. Навернется - да и ух с ним, восстановим из бэкапа или при отсутствии его «уволимся» :)

anc ★★★★★ ()
Ответ на: комментарий от Serge10

Если диск сломался до ребута системы и не был заменён, возможно админ не читает сообщения электронной почты.

Но так ваш вопрос не ко мне, а к разработчикам initrd скриптов, которые засовывают туда mdadm с опцией ″--no-degraded″.

mky ★★★★★ ()

Может есть какие-нибудь опции которые позволяют работать mdadm как надо?

Для этого нужен ещё один носитель для горячей замены (hotswap) отказавшего. Тогда массив перестроится с новым диском и продолжит работу. Автоматически это произойдёт или вручную придётся переключать роли носителя для hotswap - второй вопрос.

iZEN ★★★★★ ()
Ответ на: комментарий от mky

Скорее всего ваша проблема в initrd (initramfs) скриптах, которые собирают raid.

Debian 9, делал update-initramfs -u

Вобще легко гуглится, что есть (или была такая опция) и был такой баг, что она не работала...

Никак не могу нагуглить про такую опцию...

gfh ★★ ()
Последнее исправление: gfh (всего исправлений: 2)
Ответ на: комментарий от anc

Который с бОльшей степенью вероятности так же на ребуте встанет «раком» и попросит нажать «волшебную кнопочку».

Как показывает мой опыт, бОльшая часть серверов спокойно грузится дальше, с массивами в degraded состоянии.

PS. Вообще сейчас я тренировался на виртуалке в увеличении массива путем замены дисков на более емкие диски. Было б интересно обнаружить такое в реальной работе...

gfh ★★ ()
Ответ на: комментарий от iZEN

hotswap не всегда возможно организовать. Взять например одноюнитовый сервер с 4-мя 3.5" корзинами и задачей выжать максимум емкости при небольшой нагрузке. Только raid-5 и поможет.

gfh ★★ ()
Ответ на: комментарий от gfh

Как показывает мой опыт, бОльшая часть серверов спокойно грузится дальше, с массивами в degraded состоянии.

У каждого свой опыт. Из брэндов HP, DELL (с хард рэйдами, не подумайте про fake) чаще встают «с радостными криками» «у нас трындец» мол кнопочку нажми, «мы загрузимся», «но подумай» что хард менять таки надо.

anc ★★★★★ ()
Последнее исправление: anc (всего исправлений: 1)
Ответ на: комментарий от anc

Ну вот как пример HP DL160 G6

04:00.0 RAID bus controller: Hewlett-Packard Company Smart Array G6 controllers (rev 01)
грузится без проблем, только задержка на 30 секунд чтобы вывести сообщение. Лично проверял на прошлой неделе.

gfh ★★ ()
Ответ на: комментарий от gfh

Smart Array

Буковок нэма. Это fake или хардверный ? Поясню, зависит от начала P или B. Да и просто другими методами можно понять, если в системе у вас только /dev/sda при наличии 4-х хардов это одно, если /dev/sda-d это fake

anc ★★★★★ ()
Ответ на: комментарий от gfh

Девятый дебиан не знаю. Раньше эта опция называлась boot_degraded, её пихали то в параметры ядра, то в /etc/initramfs-tools/conf.d/mdadm и делали update-initramfs.

Для дебиан 8 есть такое: https://serverfault.com/questions/688207/how-to-auto-start-degraded-software-... там и ссылка на bugs.debian.org... Но подобная проблема, ЕМНИП, пожизненая, я что-то подобное читал про ubuntu 8.

mky ★★★★★ ()