LINUX.ORG.RU
ФорумAdmin

[экстрим, миссия не выполнима] Рассыпался программный RAID6 из четырёх SCSI-дисков


0

2

И так... В одной организации обнаружили старенький tower-сервак с Intel'овской начинкой, который был выключен и не использовался года три. Решили попробовать его заюзать, а для установки на него системы - отдали мне. Было это несколько дней назад. Систему я на него установил (ubuntu 10.04 с ведром 2.6.38) и оставил включенным. Сегодня захожу по ssh, а там вот такое:

# cat /proc/mdstat 
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md0 : active raid1 sdd1[3] sdb1[1] sdc1[2] sda1[0]
      524276 blocks super 1.0 [4/4] [UUUU]
      
md1 : active raid6 sdd2[3](F) sdb2[1](F) sdc2[2](F) sda2[0](F)
      70548480 blocks super 1.2 level 6, 512k chunk, algorithm 2 [4/0] [____]
      
unused devices: <none>
md0 - это /boot, на md1 - LVM со всем остальным. Аппаратный RAID-контроллер (Intel SRCZCR) в серваке есть, но мне он как-то сразу не внушил доверия. В dmesg вот такое:
[ 6601.129748] Adapter 0: Bus A: The SCSI controller was reset due to SCSI BUS noise or an invalid signal.  Check cables, termination, termpower, LVDS operation, etc.
и сразу после этого отвал всех четырёх дисков.

Собственно вопросы:

  • Из-за чего такое может быть? Гугль подсказывает, что такое бывает из-за плохого SCSI-кабеля или глючного контроллера.
  • Что можно сделать сейчас? Никаких хоть сколько-нибудь ценных данных на серваке нет, оживить его удалённо хочется из чисто спортивного интереса. Отдельные диски на данный момент все видятся и с них можно читать (пробовал при помощи dd). Команды доступны только те, которые остались в кеше в оперативной памяти (mdadm работает). su тоже работает, так что и рут есть.

P.S. В тонкостях работы с SCSI не разбираюсь вообще. P.P.S. Конкретной информации по железу сказать не могу, так как lspci и lshw не работают. SCSI-контроллер распаян на материнской плате, RAID-контроллер вставлен отдельной платой (без внешних выводов) в PCI-X. Хотя если это очень важно, могу попробовать вытащить PCI ID через /sys...

Deleted

Ситуация становится всё хуже:

# cat /proc/mdstat 
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md0 : active raid1 sdd1[3] sdb1[1](F) sdc1[2](F) sda1[0](F)
      524276 blocks super 1.0 [4/1] [___U]
      
md1 : active raid6 super 1.2 level 6, 512k chunk, algorithm 2 [4/0] [____]
      
unused devices: <none>
=)

Deleted ()

>Что можно сделать сейчас?

ИМХО, пытаться создать ramdisk/tmpfs и залить туда busybox, возможно и sshd запустить от туда. Пока кеш не почистился, чтобы спокойно потом копировать туда и запускать любые команды.

mky ★★★★★ ()
Ответ на: комментарий от Deleted

есть доступ к каким-нибудь счётчикам аля температура процессора/чипсета?

spunky ★★ ()

вынь контроллер вообще, он туфтовый и тем более не используется. а диски, небось, сигейты с пластинами 3.5"? Короче, типичный говносервер из разряда древнего ксеона на платформе sr*400?

true_admin ★★★★★ ()
Ответ на: комментарий от mky

ИМХО, пытаться создать ramdisk/tmpfs и залить туда busybox, возможно и sshd запустить от туда. Пока кеш не почистился, чтобы спокойно потом копировать туда и запускать любые команды.

Он уже совсем завис =).

Deleted ()
Ответ на: комментарий от true_admin

вынь контроллер вообще, он туфтовый и тем более не используется.

То есть проблема может быть и в RAID-контроллере?

а диски, небось, сигейты с пластинами 3.5"?

Да, сигейты. Какие именно - не помню. Но проблема ИМХО не в них, так как они все четыре штуки разом отвалились.

Короче, типичный говносервер из разряда древнего ксеона на платформе sr*400?

Сейчас откопал lshw с того сервера - там материнка Intel SE7501HG2.

Deleted ()
Ответ на: комментарий от Deleted

Хз. Я, как минимум, обновил бы биос материнки и рейда. Но лучше рейд выкинуть т.к. у нас это была самая частая головная боль и источник проблем. Почитай чейнжлог прошивки, у тебя волосы дыбом встанут.

true_admin ★★★★★ ()

а нафига делать рейд6 из 4х дисков?

mashina ★★★★★ ()
Ответ на: комментарий от mashina

а нафига делать рейд6 из 4х дисков?

Чтобы могли сдохнуть любые два диска.

Deleted ()
Ответ на: комментарий от Deleted

Наверное, там был swap.

Сервер то пылесосился перед включением?

mky ★★★★★ ()
Ответ на: комментарий от berrywizard

Вы бы это, литературку почитали, что ли...

На тему?

Deleted ()

в данном случае не задумываясь восстанавливаются из бекапов на новый сервер.

надеюсь ТС просто глумится над железкой и там ничего важного нету.

MikeDM ★★★★★ ()
Ответ на: комментарий от MikeDM

надеюсь ТС просто глумится над железкой и там ничего важного нету.

Да, нету.

Deleted ()
Ответ на: комментарий от berrywizard

С чего бы? 4 диска - это минимум для 6-го RAID'a

YAR ★★★★★ ()
Ответ на: комментарий от berrywizard

Только 4 диска в RAID6 - это уже degraded режим.

Нет. Тебе самому стоит литературку почитать =).

Deleted ()

Наконец-то руки дошли. В общем я его разобрал-собрал, вытащил RAID-контроллер и обновил BIOS. Пока вроде работает, посмотрим что дальше будет...

Deleted ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.