LINUX.ORG.RU
ФорумAdmin

Centos 6. RAID-6, 8 дисков, стало 2 non fresh. 1 spare. Что можно сделать?

 ,


0

3

Всем доброго времени суток. В один прекрасный день, после перезагрузки развалился RAID6 состоящий из 8 дисков. Немного информации: Система, CentOS 6:

Linux Storagehost.local 2.6.32-504.12.2.el6.x86_64 #1 SMP Wed Mar 11 22:03:14 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Всякое бывало, вылетали диски, тут все просто, заменил, добавил в массив, синхронизировались и все хорошо. А сейчас приходится взывать к помощи всемогущего all'a :). Один диск поменял свой статус на Spare, когда их в жизни в массиве не было.

Сейчас массив находится в таком состоянии :(

[root@Storagehost md10]# mdadm --detail /dev/md10
/dev/md10:
        Version : 1.2
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
  Used Dev Size : 976627712 (931.38 GiB 1000.07 GB)
   Raid Devices : 8
  Total Devices : 6
    Persistence : Superblock is persistent

    Update Time : Thu Mar 19 14:13:18 2015
          State : active, FAILED, Not Started 
 Active Devices : 5
Working Devices : 6
 Failed Devices : 0
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 512K

           Name : Storage.local:10
           UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
         Events : 24106

    Number   Major   Minor   RaidDevice State
       0       8      145        0      active sync   /dev/sdj1
       2       0        0        2      removed
       2       8      129        2      active sync   /dev/sdi1
       3       8       81        3      active sync   /dev/sdf1
       8       0        0        8      removed
      10       0        0       10      removed
      10       8      113        6      active sync   /dev/sdh1
      11       8       49        7      active sync   /dev/sdd1

      12       8      161        -      spare   /dev/sdk1
в логах что касается mdadm
dmesg | grep md
md: bind<sda1>
md: bind<sdf1>
md: bind<sdj1>
md: bind<sdk1>
md: bind<sdh1>
md: bind<sdi1>
md: bind<sdd1>
md: bind<sde1>
md: kicking non-fresh sde1 from array!
md: unbind<sde1>
md: export_rdev(sde1)
md: kicking non-fresh sda1 from array!
md: unbind<sda1>
md: export_rdev(sda1)
md: raid6 personality registered for level 6
md: raid5 personality registered for level 5
md: raid4 personality registered for level 4
md/raid:md10: device sdd1 operational as raid disk 7
md/raid:md10: device sdi1 operational as raid disk 2
md/raid:md10: device sdh1 operational as raid disk 6
md/raid:md10: device sdj1 operational as raid disk 0
md/raid:md10: device sdf1 operational as raid disk 3
md/raid:md10: allocated 0kB
md/raid:md10: not enough operational devices (3/8 failed)
md/raid:md10: failed to run raid set.
md: pers->run() failed ...

[root@Storagehost md10]# mdadm --examine /dev/sd[adefhijk]1
/dev/sda1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
           Name : Storage.local:10
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 1953255873 (931.39 GiB 1000.07 GB)
     Array Size : 5859766272 (5588.31 GiB 6000.40 GB)
  Used Dev Size : 1953255424 (931.38 GiB 1000.07 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262056 sectors, after=449 sectors
          State : clean
    Device UUID : c6700abf:501a743a:940c60a1:03fd59e3

    Update Time : Thu Mar 19 13:36:03 2015
  Bad Block Log : 512 entries available at offset 72 sectors
       Checksum : 55e1540d - correct
         Events : 24099

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 4
   Array State : A.AAAAAA ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdd1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
           Name : Storage.local:10
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 1953257858 (931.39 GiB 1000.07 GB)
     Array Size : 5859766272 (5588.31 GiB 6000.40 GB)
  Used Dev Size : 1953255424 (931.38 GiB 1000.07 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262056 sectors, after=2434 sectors
          State : clean
    Device UUID : 93f249ec:bc9cd1bc:86e6c2bb:55a774a4

    Update Time : Thu Mar 19 14:13:18 2015
  Bad Block Log : 512 entries available at offset 72 sectors
       Checksum : e0f5ed0c - correct
         Events : 24106

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 7
   Array State : A.AA..AA ('A' == active, '.' == missing, 'R' == replacing)
/dev/sde1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
           Name : Storage.local:10
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 1953255873 (931.39 GiB 1000.07 GB)
     Array Size : 5859766272 (5588.31 GiB 6000.40 GB)
  Used Dev Size : 1953255424 (931.38 GiB 1000.07 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262056 sectors, after=449 sectors
          State : clean
    Device UUID : cc0d3052:6de584a7:a885a623:22291c8e

    Update Time : Thu Mar 19 13:36:03 2015
  Bad Block Log : 512 entries available at offset 72 sectors
       Checksum : 83206163 - correct
         Events : 24099

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 5
   Array State : A.AAAAAA ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdf1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
           Name : Storage.local:10
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 1953257858 (931.39 GiB 1000.07 GB)
     Array Size : 5859766272 (5588.31 GiB 6000.40 GB)
  Used Dev Size : 1953255424 (931.38 GiB 1000.07 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262064 sectors, after=2434 sectors
          State : clean
    Device UUID : 19b3e1d9:38463b67:e4e215e9:cd2b3585

    Update Time : Thu Mar 19 14:13:18 2015
       Checksum : 8702d7ac - correct
         Events : 24106

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 3
   Array State : A.AA..AA ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdh1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
           Name : Storage.local:10
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 1953260976 (931.39 GiB 1000.07 GB)
     Array Size : 5859766272 (5588.31 GiB 6000.40 GB)
  Used Dev Size : 1953255424 (931.38 GiB 1000.07 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262056 sectors, after=5552 sectors
          State : clean
    Device UUID : 9274d921:eb212653:9f23705c:6f17497f

    Update Time : Thu Mar 19 14:13:18 2015
  Bad Block Log : 512 entries available at offset 72 sectors
       Checksum : 285bad99 - correct
         Events : 24106

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 6
   Array State : A.AA..AA ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdi1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
           Name : Storage.local:10
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 1953257858 (931.39 GiB 1000.07 GB)
     Array Size : 5859766272 (5588.31 GiB 6000.40 GB)
  Used Dev Size : 1953255424 (931.38 GiB 1000.07 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262064 sectors, after=2434 sectors
          State : clean
    Device UUID : bddd738c:ea17e4ee:094daead:14697d1e

    Update Time : Thu Mar 19 14:13:18 2015
       Checksum : 1f1e7b55 - correct
         Events : 24106

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 2
   Array State : A.AA..AA ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdj1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
           Name : Storage.local:10
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 1953257858 (931.39 GiB 1000.07 GB)
     Array Size : 5859766272 (5588.31 GiB 6000.40 GB)
  Used Dev Size : 1953255424 (931.38 GiB 1000.07 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262064 sectors, after=2434 sectors
          State : clean
    Device UUID : 84105066:c990bd3f:b9c93f84:833990dc

    Update Time : Thu Mar 19 14:13:18 2015
       Checksum : de787417 - correct
         Events : 24106

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 0
   Array State : A.AA..AA ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdk1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 93d9ca57:2cb945ba:3e1b4952:b172404c
           Name : Storage.local:10
  Creation Time : Fri Apr 11 06:26:46 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 1953257858 (931.39 GiB 1000.07 GB)
     Array Size : 5859766272 (5588.31 GiB 6000.40 GB)
  Used Dev Size : 1953255424 (931.38 GiB 1000.07 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262056 sectors, after=2434 sectors
          State : clean
    Device UUID : 5f05b066:924bfe3b:fa48ce7a:d1326a72

    Update Time : Thu Mar 19 14:13:18 2015
  Bad Block Log : 512 entries available at offset 72 sectors
       Checksum : 67899c9e - correct
         Events : 24106

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : spare
   Array State : A.AA..AA ('A' == active, '.' == missing, 'R' == replacing)

В сети с такими проблемами редко кто сталкивается. Видел один только случай, когда в raid6 8 из 10 пометились как non fresh

mdadm --assemble --force /dev/md10 /dev/sd[adefhijk]1

не помогает, все остается без изменений.

Диски слить некуда, чтобы играться с ними. Поэтому все (впрочем как обычно) делается на живую. :(

Итак, народ толкните в нужном направлении, что можно сделать то? не верю, что не возможно поднять его.


как можно работать, что 1 рейд массив вся жизнь информации? беги к руководству и пусть выделяют деньги на железо.

erzent ☆☆
()

Сталкивался с таким как то с года два назад, из за плохого БП отвалились примерно 6 дисков из 12 в 6 рейде. Вроде делал с начало mdadm --stop /dev/md10 и только потом рейд собирался заново, инфа вся осталась тогда на месте.

pavel38
()

Я только на виртуалке игрался с mdadm, потому что передстоит скоро собрать железку с 8-ю 6Тб в raid6 и поэтому делного совета по mdadm я тебе не дам.

Но я знаю что диск WD Red WD60EFRX сейчас стоит примерно 350уе. Мой совет звучит так - к шефу за наличкой и бегом в магазин.

Диски слить некуда, чтобы играться с ними. Поэтому все (впрочем как обычно) делается на живую. :(

как обычно

Вот заодно и выйдеш за рамки обычного ;)

GoNaX ★★★
()
Ответ на: комментарий от pavel38

:), похоже сея учесть и меня не миновала.

Bummka
() автор топика
Ответ на: комментарий от GoNaX

Господа, это не работа. Это просто домашний сервер :), нормальный домашний сервер, где хранится всякая важная фигня. Поэтому, бегом к шефу за наличкой, тут не прокатывает :).

Bummka
() автор топика

у тебя на 2 дисках «Update Time» 13:36:03 (sda, sde)

на остальных совпадает с «Update Time» рейда: 14:13:18

6 рейд без 2 дисков выживает, попробуй собрать без sda/sde

mdadm --assemble --force /dev/md10 /dev/sd[dfhijk]1
Sigizmund
()
Ответ на: комментарий от Bummka

А можешь вкратце описать конфигурацию своего хоум сервера? Какая память, какой блок питания, мамка... и были ли какае-то траблы с железом за время эксплуатации?

И вообще сколько оно электроэнергии хавает?

GoNaX ★★★
()
Ответ на: комментарий от Sigizmund

:), это знаю, он бы собрался и с «out of date» дисками.

Не получится, один диск поменял свой статус с «Active» на «Spare». Поэтому их 5, а не 6 :(. И самое печальное, что я и представить себе не могу что же могло случится с ним, что вдруг смена статуса. Spare устройств никогда не было.

Не помогло, как и ожидалось:

[root@Storagehost md10]# mdadm --assemble --force /dev/md10 /dev/sd[dfhijk]1
mdadm: /dev/md10 assembled from 5 drives and 1 spare - not enough to start the array.

Bummka
() автор топика
Ответ на: комментарий от Bummka

можно попробовать сделать дамп метки рейда с диска, который spare (sdk), вручную исправить на active и записать ее на диск, а потом попытаться собрать рейд...

Sigizmund
()
Ответ на: комментарий от Bummka

где точно находится метка - нужно документацию dm-raid смотреть...я думаю она должна быть в начале рейд-раздела....а потом dd count=XXX if=/dev/sdk1 of=file.img

где ХХХ нужное кол-во секторов диска (возможно dd нужно будет указать смещение, чтоб он только нужное копировал)

потом HEX-редактором отредактировать file.img и залить обратно на диск

dd if=file.img of=/dev/sdk1 (если указывалось смещение - указать такое-же!!!)

ВАЖНО!!! на всякий случай предварительно сделать дамп области раздела перекрывающей область с меткой В ОТДЕЛЬНЫЙ ФАЙЛ! (чтоб в случае чего можно было восстановить исходное состояние диска)

как обозначается активное состояние диска можно посмотреть в метке активного диска...

Sigizmund
()
Ответ на: комментарий от GoNaX

И вообще сколько оно электроэнергии хавает?

Не замерял, это мнимое энергосбережение при наличии другого электрооборудования класса «А», просто не имеет смысла.

А можешь вкратце описать конфигурацию своего хоум сервера? Какая память, какой блок питания, мамка

если хочется, то почему бы и нет? :). ASRock B75 Pro3 + Intel Celeron G1620 + 2x2Gb DDR3. + 2x Adaptec 1430SA. Итого 16 SATA. 8х1Tb RAID6 для архивных данных, 2х1,5Tb LVM для Apple Time machine, + 2Tb для торрентов, мультиков, фильмов и прочей гадости, которую не жалко потерять. +гигабитная сетевуха для pfSence в виртуалке :). Все это питается от какого то блока Asus 550, у которого 26А по шине +5В и 18+18 по 12В. Глюков не было до последнего времени, пока не вылетел очередной hdd и не был заменен на новый, у которого похоже энергопотребление повыше оказалось, чем у старого. Ну как глюки, раз в полтора-два месяца, какой нибудь винт в хаотичном порядке выпадал из массива, добавляешь его снова в массив и вуаля, все снова Clean. За прошедшие четыре месяца после замены не придал этому факту значения, поскольку стабильно вылетает какой нибудь винт раз в полгода, либо просто вылетел, либо накрылся.

Вот как то так.

Bummka
() автор топика
Ответ на: комментарий от Sigizmund

Спасибо, по результатам отпишусь, а пока сделаю копию этого диска, чтобы не запороть. Пока беру тайм-аут до завтра. Еще раз спасибо.

Bummka
() автор топика

кроме 1 и 10, все остальные - вообще за raid массивы не держу

armbox
()
Ответ на: комментарий от YAR

Ну что же, поднял :)

Остерегся доверять различным сайтам, поэтому обратился непосредственно к WiKi :), https://raid.wiki.kernel.org/index.php/RAID_Recovery#Recreating_an_array

собственно массив поднял в degraded, сейчас сливаю данные. В качестве логического завершения пара логов:

mdadm --verbose --create --assume-clean --level=6 --raid-devices=8 /dev/md0 /dev/sdj1 /dev/sdk1 /dev/sdi1 /dev/sdf1 /dev/sda1 /dev/sde1 /dev/sdh1 /dev/sdd1
mdadm: layout defaults to left-symmetric
mdadm: layout defaults to left-symmetric
mdadm: chunk size defaults to 512K
mdadm: /dev/sdj1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sdk1 appears to contain an ext2fs file system
       size=976760000K  mtime=Wed Apr  9 15:26:18 2014
mdadm: /dev/sdk1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sdi1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: partition table exists on /dev/sdi1 but will be lost or
       meaningless after creating array
mdadm: /dev/sdf1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sda1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sde1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sdh1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sdd1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: size set to 976627712K
mdadm: automatically enabling write-intent bitmap on large array
Continue creating array? n
mdadm: create aborted.

Смутили сообщения о разделах и существовании fs, поэтому эти диски просто выкинул :)

mdadm --verbose --create --assume-clean --level=6 --raid-devices=8 /dev/md0 /dev/sdj1 missing missing /dev/sdf1 /dev/sda1 /dev/sde1 /dev/sdh1 /dev/sdd1
mdadm: layout defaults to left-symmetric
mdadm: layout defaults to left-symmetric
mdadm: chunk size defaults to 512K
mdadm: /dev/sdj1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sdf1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sda1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sde1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sdh1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: /dev/sdd1 appears to be part of a raid array:
       level=raid6 devices=8 ctime=Fri Apr 11 06:26:46 2014
mdadm: size set to 976627712K
mdadm: automatically enabling write-intent bitmap on large array
Continue creating array? y
mdadm: Defaulting to version 1.2 metadata
mdadm: array /dev/md0 started.
  Update Time : Sun Mar 22 05:59:39 2015
          State : active, degraded 
 Active Devices : 6
Working Devices : 6
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : Storagehost.local:0  (local to host Storagehost.local)
           UUID : f634a6cb:70462879:c9b2f0f3:01f35190
         Events : 0

    Number   Major   Minor   RaidDevice State
       0       8      145        0      active sync   /dev/sdj1
       2       0        0        2      removed
       4       0        0        4      removed
       3       8       81        3      active sync   /dev/sdf1
       4       8        1        4      active sync   /dev/sda1
       5       8       65        5      active sync   /dev/sde1
       6       8      113        6      active sync   /dev/sdh1
       7       8       49        7      active sync   /dev/sdd1

ВАЖНЫЙ момент, просто чтобы было по русски :), если тему не удалят :), последовательности дисков должны точно соответствовать как они и создавались. В этом помогли параноидальные записки :), иначе пришлось бы вспоминать, что и как было.

Всем спасибо за помощь, внимание и посильную поддержку.

Bummka
() автор топика
7 июня 2015 г.
Ответ на: комментарий от pavel38

Для тех, кто вдруг натолкнется потом.

Итак, запоздало, но вкратце резюмирую, pavel38 был прав, вся причина крылась в плохом блоке питания, поэтому господа, лучше перестраховываться и держать запас по питанию не только по +12В, но и по +5В. Как оказалось, в нынешнее время достаточно трудно найти блок питания с приличной мощностью по шинам +3.3В и 5В. Поменял блок питания и все глюки как рукой сняло.

Bummka
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.