LINUX.ORG.RU
решено ФорумAdmin

RAID10 в mdadm сломался

 ,


0

1

Приветствую.

Такая картина, выпало одновременно 2 диска

# cat /proc/mdstat
Personalities : [raid10] [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4]
md1 : active raid10 sdc2[1] sdb2[2]
      1848402944 blocks super 1.2 512K chunks 2 near-copies [4/2] [_UU_]
      bitmap: 1/14 pages [4KB], 65536KB chunk

md0 : active raid10 sdc1[1] sdb1[2]
      104792064 blocks super 1.2 512K chunks 2 near-copies [4/2] [_UU_]

# mdadm -D /dev/md0
/dev/md0:
           Version : 1.2
     Creation Time : Tue Jul 21 10:03:05 2020
        Raid Level : raid10
        Array Size : 104792064 (99.94 GiB 107.31 GB)
     Used Dev Size : 52396032 (49.97 GiB 53.65 GB)
      Raid Devices : 4
     Total Devices : 2
       Persistence : Superblock is persistent

       Update Time : Mon Jan 12 11:48:06 2026
             State : clean, degraded
    Active Devices : 2
   Working Devices : 2
    Failed Devices : 0
     Spare Devices : 0

            Layout : near=2
        Chunk Size : 512K

Consistency Policy : resync

    Number   Major   Minor   RaidDevice State
       -       0        0        0      removed
       1       8       33        1      active sync set-B
       2       8       17        2      active sync set-A
       -       0        0        3      removed

Теперь в файловой системе ничего не дается сделать и обратно добавить диски тоже не хотит, советов много, но что сделать чтобы все окончательно не рухнуло? резервного сервера и дисков (пока) нет

# mdadm --manage /dev/md0 --add /dev/sda1
mdadm: cannot load array metadata from /dev/md0
★★★

в целом по дискам

# ls -l /dev/sd*
brw-rw---- 1 root disk 8,  0 янв 12 11:01 /dev/sda
brw-rw---- 1 root disk 8,  1 янв 12 11:01 /dev/sda1
brw-rw---- 1 root disk 8,  2 янв 12 11:01 /dev/sda2
brw-rw---- 1 root disk 8, 48 янв 12 11:01 /dev/sdd
brw-rw---- 1 root disk 8, 49 янв 12 11:01 /dev/sdd1
brw-rw---- 1 root disk 8, 50 янв 12 11:01 /dev/sdd2
brw-rw---- 1 root disk 8, 64 янв 12 11:01 /dev/sde
brw-rw---- 1 root disk 8, 65 янв 12 11:01 /dev/sde1
brw-rw---- 1 root disk 8, 66 янв 12 11:01 /dev/sde2
brw-rw---- 1 root disk 8, 80 янв 12 11:01 /dev/sdf
brw-rw---- 1 root disk 8, 81 янв 12 11:01 /dev/sdf1
brw-rw---- 1 root disk 8, 82 янв 12 11:01 /dev/sdf2
# mdadm --assemble --scan --verbose
mdadm: looking for devices for /dev/md0
mdadm: /dev/sdf2 has wrong uuid.
mdadm: No super block found on /dev/sdf (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sdf
mdadm: /dev/sde2 has wrong uuid.
mdadm: No super block found on /dev/sde (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sde
mdadm: /dev/sdd2 has wrong uuid.
mdadm: No super block found on /dev/sdd (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sdd
mdadm: /dev/sda2 has wrong uuid.
mdadm: No super block found on /dev/sda (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sda
mdadm: cannot open device /dev/sr0: No medium found
mdadm: Cannot read superblock on /dev/md1
mdadm: no RAID superblock on /dev/md1
mdadm: Cannot read superblock on /dev/md0
mdadm: no RAID superblock on /dev/md0
mdadm: Found some drive for an array that is already active: /dev/md0
mdadm: giving up.
mdadm: looking for devices for /dev/md1
mdadm: /dev/sdf1 has wrong uuid.
mdadm: No super block found on /dev/sdf (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sdf
mdadm: /dev/sde1 has wrong uuid.
mdadm: No super block found on /dev/sde (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sde
mdadm: /dev/sdd1 has wrong uuid.
mdadm: No super block found on /dev/sdd (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sdd
mdadm: /dev/sda1 has wrong uuid.
mdadm: No super block found on /dev/sda (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sda
mdadm: cannot open device /dev/sr0: No medium found
mdadm: Cannot read superblock on /dev/md1
mdadm: no RAID superblock on /dev/md1
mdadm: Cannot read superblock on /dev/md0
mdadm: no RAID superblock on /dev/md0
mdadm: Found some drive for an array that is already active: /dev/md1
mdadm: giving up.
wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от wolverin

получается выпали /dev/sda и /dev/sdd, но вместо них появились /dev/sde и /dev/sdf

kernel: [59114074.480704] ata3: SATA link down (SStatus 0 SControl 300)
kernel: [59114074.480709] ata3.00: link offline, clearing class 1 to NONE
kernel: [59114074.580728] ata2: SATA link down (SStatus 0 SControl 300)
kernel: [59114074.580733] ata2.00: link offline, clearing class 1 to NONE
kernel: [59114075.164235] ata2: SATA link down (SStatus 0 SControl 300)
kernel: [59114075.164242] ata2: limiting SATA link speed to <unknown>
kernel: [59114075.196703] ata3: SATA link down (SStatus 0 SControl 300)
kernel: [59114075.196709] ata3.00: link offline, clearing class 1 to NONE
kernel: [59114075.196713] ata3: limiting SATA link speed to <unknown>
kernel: [59114075.292716] ata4: SATA link down (SStatus 0 SControl 300)
kernel: [59114075.292722] ata4.00: link offline, clearing class 1 to NONE

...

kernel: [59114076.196657] sd 1:0:0:0: rejecting I/O to offline device
kernel: [59114076.197800] print_req_error: I/O error, dev sda, sector 2056
kernel: [59114076.198923] md: super_written gets error=10
Jan 12 11:01:32 asterisk kernel: [59114076.200034] md/raid10:md0: Disk failure on sda1, disabling device.
kernel: [59114076.200034] md/raid10:md0: Operation continuing on 3 devices.
kernel: [59114076.202343] sd 1:0:0:0: rejecting I/O to offline device
kernel: [59114076.203489] print_req_error: I/O error, dev sda, sector 104859664
kernel: [59114076.204615] md: super_written gets error=10
kernel: [59114076.205713] md/raid10:md1: Disk failure on sda2, disabling device.
kernel: [59114076.205713] md/raid10:md1: Operation continuing on 3 devices.
kernel: [59114076.248743] ata3: SATA link down (SStatus 0 SControl 3F0)
kernel: [59114076.248748] ata3.00: link offline, clearing class 1 to NONE
kernel: [59114076.248751] ata3.00: disabled
kernel: [59114076.252656] sd 2:0:0:0: rejecting I/O to offline device
kernel: [59114076.253285] print_req_error: I/O error, dev sdb, sector 104859664
kernel: [59114076.253860] md: super_written gets error=10

wolverin ★★★
() автор топика
Ответ на: комментарий от futurama

power

это можно, но если я выключу, он же не загрузится!?

да, какие то «левые» диски появились после сбоя

# mdadm --examine /dev/sde1
/dev/sde1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 21ea621b:e27b5ff1:f762a144:a1fea626
           Name : asterisk:0  (local to host asterisk)
  Creation Time : Tue Jul 21 10:03:05 2020
     Raid Level : raid10
   Raid Devices : 4

 Avail Dev Size : 104792064 (49.97 GiB 53.65 GB)
     Array Size : 104792064 (99.94 GiB 107.31 GB)
    Data Offset : 65536 sectors
   Super Offset : 8 sectors
   Unused Space : before=65448 sectors, after=0 sectors
          State : active
    Device UUID : 47a6228b:8dd10402:a5bffa94:a7329c3e

    Update Time : Mon Jan 12 11:01:29 2026
  Bad Block Log : 512 entries available at offset 72 sectors
       Checksum : 27de06ef - correct
         Events : 4348

         Layout : near=2
     Chunk Size : 512K

   Device Role : Active device 0
   Array State : AAAA ('A' == active, '.' == missing, 'R' == replacing)

wolverin ★★★
() автор топика
Ответ на: комментарий от anonymous

записи есть, последний раз в прошлом году приходил кто то, думаю проблема в том, что дискам по 12 лет ))

# smartctl -A /dev/sdc
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-26-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   193   051    Pre-fail  Always       -       4660
  3 Spin_Up_Time            0x0027   171   169   021    Pre-fail  Always       -       4408
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       67
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   001   001   000    Old_age   Always       -       105572
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       66
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       51
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       15
194 Temperature_Celsius     0x0022   125   096   000    Old_age   Always       -       22
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       130
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       11

wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от firkax

может, но этот сервер на одном упс с другими висит, блок питания может его конечно, т.к. года 3 назад предыдущий издох забрав с собой мать.

wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от wolverin

да, какие то «левые» диски появились после сбоя

Это не «левые диски». Когда девайс потерян но его нода в /dev открыта (например удерживаестя тем самым md0) то когда устройство появляется снова - оно добавляется как новое в новую ноду - тот самый /dev/sde.

Поэтому с вероятностью 146% у тебя либо устройства на горячую дергали, либо железо чудило и девайсы отваливались и подключались прямо в процессе работы. И не важно что ты думаешь и в чем уверен, потому что факты вещь упрямая - девайсы отваливались и подключались, картина однозначная.

no-dashi-v2 ★★★★
()