LINUX.ORG.RU
решено ФорумAdmin

развалился raid5

 ,


0

4

Ночью выпало из массива 2 диска из 3 (один пошел бэдами видимо, но в системе как устройство функционирует, а второй ваще по непонятной причине)

[root@dor /]# mdadm -D /dev/md127
/dev/md127:
        Version : 1.1
  Creation Time : Tue Dec 24 20:08:05 2013
     Raid Level : raid5
     Array Size : 976507904 (931.27 GiB 999.94 GB)
  Used Dev Size : 488253952 (465.64 GiB 499.97 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Fri Feb 12 09:19:24 2021
          State : clean, FAILED 
 Active Devices : 1
Working Devices : 1
 Failed Devices : 2
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : his.xxx.ru:0
           UUID : c8a093fa:8bb45173:bf976911:cbdb4181
         Events : 6321696

    Number   Major   Minor   RaidDevice State
       -       0        0        0      removed
       1       8       33        1      active sync   /dev/sdc1
       -       0        0        2      removed

       0       8       17        -      faulty   /dev/sdb1
       3       8       49        -      faulty   /dev/sdd1

передобавил выпавшие диски в массив:

[root@dor /]# mdadm --re-add /dev/md127 /dev/sdb1
mdadm: re-add /dev/sdb1 to md127 succeed
[root@dor /]# mdadm --re-add /dev/md127 /dev/sdd1
mdadm: re-add /dev/sdd1 to md127 succeed

теперь диски пометились как «запасные»

[root@dor /]# mdadm -D /dev/md127
/dev/md127:
        Version : 1.1
  Creation Time : Tue Dec 24 20:08:05 2013
     Raid Level : raid5
     Array Size : 976507904 (931.27 GiB 999.94 GB)
  Used Dev Size : 488253952 (465.64 GiB 499.97 GB)
   Raid Devices : 3
  Total Devices : 3
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Fri Feb 12 09:20:42 2021
          State : clean, FAILED 
 Active Devices : 1
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 2

         Layout : left-symmetric
     Chunk Size : 512K

           Name : his.xxx.ru:0
           UUID : c8a093fa:8bb45173:bf976911:cbdb4181
         Events : 6321702

    Number   Major   Minor   RaidDevice State
       -       0        0        0      removed
       1       8       33        1      active sync   /dev/sdc1
       -       0        0        2      removed

       0       8       17        -      spare   /dev/sdb1
       3       8       49        -      spare   /dev/sdd1

тормознул рейд mdadm -S /dev/md127 в надежде пересобрать raid, но он не стартует, т.к. два винта из трех помечены как «подменные»

[root@dor etc]# mdadm --assemble --update=resync /dev/md127 /dev/sdb1 /dev/sdc1 /dev/sdd1
mdadm: /dev/md127 assembled from 1 drive and 2 spares - not enough to start the array.

т.е. mdadm --examine /dev/sdX1 говорит, что «Device Role : spare» Как заменить роль у диска вне рейда, что запустить повторную сборку?

1. рейд ты вряд ли назад соберёшь, расчехляй бекапы
2. запости лог ядра для момента когда рейд развалился, не сам по себе же он умер

anonymous ()

Если диски целы (в достаточном количестве) и информация на них не перезаписана, то создавай массив заново (create) с параметрами --assume-clean --readonly (ВАЖНО!)

При этом важен правильный порядок дисков, параметры рейда (версия metadata, layout, chunk и прочее).
Так что на всякий случай сначала сохрани вывод --examine дисков (того диска, что остался active)

TheAnonymous ★★★★★ ()

один пошел бэдами видимо

Видимо??? Т.е. даже smartd не был запущен на raid5 из 3х дисков? (хотя во всех методичках пишется «не делайте raid5 на 3х дисках»)

Да, выше совершенно правильно написали + читать https://raid.wiki.kernel.org/index.php/Irreversible_mdadm_failure_recovery

zemidius ()

Рейд восстановлен! Данные удалось достать с минимальными потерями только самых свежих файлов.

Спасибо TheAnonymous, за предложенную команду --assume-clean

mdadm --create --assume-clean /dev/md127 --level=5 --raid-devices=3 /dev/sdb1 /dev/sdc1 /dev/sdd1

--readonly не пригодилась, честно говоря с ней массив собрался, но его никуда не смог примонтировать, чтобы считать с него данные, в чем смысл тогда её использования?!

кусок лога:

Feb 11 23:51:52 dor kernel: ata4.00: exception Emask 0x0 SAct 0x3c000 SErr 0x0 action 0x0
Feb 11 23:51:52 dor kernel: ata4.00: irq_stat 0x40000008
Feb 11 23:51:52 dor kernel: ata4.00: failed command: READ FPDMA QUEUED
Feb 11 23:51:52 dor kernel: ata4.00: cmd 60/40:70:00:28:29/05:00:28:00:00/40 tag 14 ncq dma 688128 in#012         res 41/40:00:8d:2c:29/00:00:28:00:00/40 Emask 0x409 (media error) <F>
Feb 11 23:51:52 dor kernel: ata4.00: status: { DRDY ERR }
Feb 11 23:51:52 dor kernel: ata4.00: error: { UNC }
Feb 11 23:51:52 dor kernel: ata4.00: configured for UDMA/133
Feb 11 23:51:52 dor kernel: sd 3:0:0:0: [sdd] tag#14 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Feb 11 23:51:52 dor kernel: sd 3:0:0:0: [sdd] tag#14 Sense Key : Medium Error [current] 
Feb 11 23:51:52 dor kernel: sd 3:0:0:0: [sdd] tag#14 Add. Sense: Unrecovered read error - auto reallocate failed
Feb 11 23:51:52 dor kernel: sd 3:0:0:0: [sdd] tag#14 CDB: Read(10) 28 00 28 29 28 00 00 05 40 00
Feb 11 23:51:52 dor kernel: blk_update_request: I/O error, dev sdd, sector 673787021
Feb 11 23:51:52 dor kernel: raid5_end_read_request: 1 callbacks suppressed
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673784968 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673784976 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673784984 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673784992 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673785000 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673785008 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673785016 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673785024 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673785032 on sdd1).
Feb 11 23:51:52 dor kernel: md/raid:md127: read error not correctable (sector 673785040 on sdd1).
Feb 11 23:51:52 dor kernel: ata4: EH complete
Feb 11 23:51:59 dor kernel: ata4.00: exception Emask 0x0 SAct 0x700000 SErr 0x0 action 0x0
Feb 11 23:51:59 dor kernel: ata4.00: irq_stat 0x40000008
Feb 11 23:51:59 dor kernel: ata4.00: failed command: READ FPDMA QUEUED
Feb 11 23:51:59 dor kernel: ata4.00: cmd 60/40:b0:40:2d:29/05:00:28:00:00/40 tag 22 ncq dma 688128 in#012         res 41/40:00:5b:31:29/00:00:28:00:00/40 Emask 0x409 (media error) <F>
Feb 11 23:51:59 dor kernel: ata4.00: status: { DRDY ERR }
Feb 11 23:51:59 dor kernel: ata4.00: error: { UNC }
Feb 11 23:51:59 dor kernel: ata4.00: configured for UDMA/133
Feb 11 23:51:59 dor kernel: sd 3:0:0:0: [sdd] tag#22 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Feb 11 23:51:59 dor kernel: sd 3:0:0:0: [sdd] tag#22 Sense Key : Medium Error [current] 
Feb 11 23:51:59 dor kernel: sd 3:0:0:0: [sdd] tag#22 Add. Sense: Unrecovered read error - auto reallocate failed
Feb 11 23:51:59 dor kernel: sd 3:0:0:0: [sdd] tag#22 CDB: Read(10) 28 00 28 29 2d 40 00 05 40 00
Feb 11 23:51:59 dor kernel: blk_update_request: I/O error, dev sdd, sector 673788251
Feb 11 23:51:59 dor kernel: raid5_end_read_request: 13 callbacks suppressed
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786200 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786208 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786216 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786224 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786232 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786240 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786248 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786256 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786264 on sdd1).
Feb 11 23:51:59 dor kernel: md/raid:md127: read error not correctable (sector 673786272 on sdd1).
Feb 11 23:51:59 dor kernel: ata4: EH complete
Feb 11 23:52:09 dor kernel: ata4.00: exception Emask 0x0 SAct 0x7f8c SErr 0x0 action 0x0
Feb 11 23:52:09 dor kernel: ata4.00: irq_stat 0x40000008
Feb 11 23:52:09 dor kernel: ata4.00: failed command: READ FPDMA QUEUED
Feb 11 23:52:09 dor kernel: ata4.00: cmd 60/40:10:80:32:29/05:00:28:00:00/40 tag 2 ncq dma 688128 in#012         res 41/40:00:38:37:29/00:00:28:00:00/40 Emask 0x409 (media error) <F>
Feb 11 23:52:09 dor kernel: ata4.00: status: { DRDY ERR }
Feb 11 23:52:09 dor kernel: ata4.00: error: { UNC }
Feb 11 23:52:09 dor kernel: ata4.00: configured for UDMA/133
Feb 11 23:52:09 dor kernel: sd 3:0:0:0: [sdd] tag#2 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Feb 11 23:52:09 dor kernel: sd 3:0:0:0: [sdd] tag#2 Sense Key : Medium Error [current] 
Feb 11 23:52:09 dor kernel: sd 3:0:0:0: [sdd] tag#2 Add. Sense: Unrecovered read error - auto reallocate failed
Feb 11 23:52:09 dor kernel: sd 3:0:0:0: [sdd] tag#2 CDB: Read(10) 28 00 28 29 32 80 00 05 40 00
Feb 11 23:52:09 dor kernel: blk_update_request: I/O error, dev sdd, sector 673789752
Feb 11 23:52:09 dor kernel: raid5_end_read_request: 27 callbacks suppressed
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787704 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787712 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787720 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787728 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787736 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787744 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787752 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787760 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787768 on sdd1).
Feb 11 23:52:09 dor kernel: md/raid:md127: read error not correctable (sector 673787776 on sdd1).
Feb 11 23:52:09 dor kernel: ata4: EH complete
Feb 11 23:52:21 dor kernel: ata4.00: exception Emask 0x0 SAct 0xe000 SErr 0x0 action 0x0
Feb 11 23:52:21 dor kernel: ata4.00: irq_stat 0x40000008
Feb 11 23:52:21 dor kernel: ata4.00: failed command: READ FPDMA QUEUED
Feb 11 23:52:21 dor kernel: ata4.00: cmd 60/40:68:00:38:29/05:00:28:00:00/40 tag 13 ncq dma 688128 in#012         res 41/40:00:02:39:29/00:00:28:00:00/40 Emask 0x409 (media error) <F>
Feb 11 23:52:21 dor kernel: ata4.00: status: { DRDY ERR }
Feb 11 23:52:21 dor kernel: ata4.00: error: { UNC }

ну и т.д. последовательный отказ сначало одного диска, чуть позже другого. несколько дней пролечивал винты Victoria HDD, чтобы они в принципе колом не вставали при попытках чтения, в финале имеем:

Mar  3 13:18:45 p01 smartd[884]: Device: /dev/sdb [SAT], 1 Offline uncorrectable sectors
Mar  3 13:18:45 p01 smartd[884]: Device: /dev/sdd [SAT], 574 Currently unreadable (pending) sectors
Mar  3 13:18:45 p01 smartd[884]: Device: /dev/sdd [SAT], 63 Offline uncorrectable sectors

sdd просто на помойку, sdb ещё «походит» в рабочей станции. :)

karasic ()