LINUX.ORG.RU
решено ФорумAdmin

RAID10 в mdadm сломался

 ,


0

1

Приветствую.

Такая картина, выпало одновременно 2 диска

# cat /proc/mdstat
Personalities : [raid10] [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4]
md1 : active raid10 sdc2[1] sdb2[2]
      1848402944 blocks super 1.2 512K chunks 2 near-copies [4/2] [_UU_]
      bitmap: 1/14 pages [4KB], 65536KB chunk

md0 : active raid10 sdc1[1] sdb1[2]
      104792064 blocks super 1.2 512K chunks 2 near-copies [4/2] [_UU_]

# mdadm -D /dev/md0
/dev/md0:
           Version : 1.2
     Creation Time : Tue Jul 21 10:03:05 2020
        Raid Level : raid10
        Array Size : 104792064 (99.94 GiB 107.31 GB)
     Used Dev Size : 52396032 (49.97 GiB 53.65 GB)
      Raid Devices : 4
     Total Devices : 2
       Persistence : Superblock is persistent

       Update Time : Mon Jan 12 11:48:06 2026
             State : clean, degraded
    Active Devices : 2
   Working Devices : 2
    Failed Devices : 0
     Spare Devices : 0

            Layout : near=2
        Chunk Size : 512K

Consistency Policy : resync

    Number   Major   Minor   RaidDevice State
       -       0        0        0      removed
       1       8       33        1      active sync set-B
       2       8       17        2      active sync set-A
       -       0        0        3      removed

Теперь в файловой системе ничего не дается сделать и обратно добавить диски тоже не хотит, советов много, но что сделать чтобы все окончательно не рухнуло? резервного сервера и дисков (пока) нет

# mdadm --manage /dev/md0 --add /dev/sda1
mdadm: cannot load array metadata from /dev/md0
★★★

в целом по дискам

# ls -l /dev/sd*
brw-rw---- 1 root disk 8,  0 янв 12 11:01 /dev/sda
brw-rw---- 1 root disk 8,  1 янв 12 11:01 /dev/sda1
brw-rw---- 1 root disk 8,  2 янв 12 11:01 /dev/sda2
brw-rw---- 1 root disk 8, 48 янв 12 11:01 /dev/sdd
brw-rw---- 1 root disk 8, 49 янв 12 11:01 /dev/sdd1
brw-rw---- 1 root disk 8, 50 янв 12 11:01 /dev/sdd2
brw-rw---- 1 root disk 8, 64 янв 12 11:01 /dev/sde
brw-rw---- 1 root disk 8, 65 янв 12 11:01 /dev/sde1
brw-rw---- 1 root disk 8, 66 янв 12 11:01 /dev/sde2
brw-rw---- 1 root disk 8, 80 янв 12 11:01 /dev/sdf
brw-rw---- 1 root disk 8, 81 янв 12 11:01 /dev/sdf1
brw-rw---- 1 root disk 8, 82 янв 12 11:01 /dev/sdf2
# mdadm --assemble --scan --verbose
mdadm: looking for devices for /dev/md0
mdadm: /dev/sdf2 has wrong uuid.
mdadm: No super block found on /dev/sdf (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sdf
mdadm: /dev/sde2 has wrong uuid.
mdadm: No super block found on /dev/sde (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sde
mdadm: /dev/sdd2 has wrong uuid.
mdadm: No super block found on /dev/sdd (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sdd
mdadm: /dev/sda2 has wrong uuid.
mdadm: No super block found on /dev/sda (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sda
mdadm: cannot open device /dev/sr0: No medium found
mdadm: Cannot read superblock on /dev/md1
mdadm: no RAID superblock on /dev/md1
mdadm: Cannot read superblock on /dev/md0
mdadm: no RAID superblock on /dev/md0
mdadm: Found some drive for an array that is already active: /dev/md0
mdadm: giving up.
mdadm: looking for devices for /dev/md1
mdadm: /dev/sdf1 has wrong uuid.
mdadm: No super block found on /dev/sdf (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sdf
mdadm: /dev/sde1 has wrong uuid.
mdadm: No super block found on /dev/sde (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sde
mdadm: /dev/sdd1 has wrong uuid.
mdadm: No super block found on /dev/sdd (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sdd
mdadm: /dev/sda1 has wrong uuid.
mdadm: No super block found on /dev/sda (Expected magic a92b4efc, got 4e9d9ad5)
mdadm: no RAID superblock on /dev/sda
mdadm: cannot open device /dev/sr0: No medium found
mdadm: Cannot read superblock on /dev/md1
mdadm: no RAID superblock on /dev/md1
mdadm: Cannot read superblock on /dev/md0
mdadm: no RAID superblock on /dev/md0
mdadm: Found some drive for an array that is already active: /dev/md1
mdadm: giving up.
wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от wolverin

получается выпали /dev/sda и /dev/sdd, но вместо них появились /dev/sde и /dev/sdf

kernel: [59114074.480704] ata3: SATA link down (SStatus 0 SControl 300)
kernel: [59114074.480709] ata3.00: link offline, clearing class 1 to NONE
kernel: [59114074.580728] ata2: SATA link down (SStatus 0 SControl 300)
kernel: [59114074.580733] ata2.00: link offline, clearing class 1 to NONE
kernel: [59114075.164235] ata2: SATA link down (SStatus 0 SControl 300)
kernel: [59114075.164242] ata2: limiting SATA link speed to <unknown>
kernel: [59114075.196703] ata3: SATA link down (SStatus 0 SControl 300)
kernel: [59114075.196709] ata3.00: link offline, clearing class 1 to NONE
kernel: [59114075.196713] ata3: limiting SATA link speed to <unknown>
kernel: [59114075.292716] ata4: SATA link down (SStatus 0 SControl 300)
kernel: [59114075.292722] ata4.00: link offline, clearing class 1 to NONE

...

kernel: [59114076.196657] sd 1:0:0:0: rejecting I/O to offline device
kernel: [59114076.197800] print_req_error: I/O error, dev sda, sector 2056
kernel: [59114076.198923] md: super_written gets error=10
Jan 12 11:01:32 asterisk kernel: [59114076.200034] md/raid10:md0: Disk failure on sda1, disabling device.
kernel: [59114076.200034] md/raid10:md0: Operation continuing on 3 devices.
kernel: [59114076.202343] sd 1:0:0:0: rejecting I/O to offline device
kernel: [59114076.203489] print_req_error: I/O error, dev sda, sector 104859664
kernel: [59114076.204615] md: super_written gets error=10
kernel: [59114076.205713] md/raid10:md1: Disk failure on sda2, disabling device.
kernel: [59114076.205713] md/raid10:md1: Operation continuing on 3 devices.
kernel: [59114076.248743] ata3: SATA link down (SStatus 0 SControl 3F0)
kernel: [59114076.248748] ata3.00: link offline, clearing class 1 to NONE
kernel: [59114076.248751] ata3.00: disabled
kernel: [59114076.252656] sd 2:0:0:0: rejecting I/O to offline device
kernel: [59114076.253285] print_req_error: I/O error, dev sdb, sector 104859664
kernel: [59114076.253860] md: super_written gets error=10

wolverin ★★★
() автор топика
Ответ на: комментарий от futurama

power

это можно, но если я выключу, он же не загрузится!?

да, какие то «левые» диски появились после сбоя

# mdadm --examine /dev/sde1
/dev/sde1:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 21ea621b:e27b5ff1:f762a144:a1fea626
           Name : asterisk:0  (local to host asterisk)
  Creation Time : Tue Jul 21 10:03:05 2020
     Raid Level : raid10
   Raid Devices : 4

 Avail Dev Size : 104792064 (49.97 GiB 53.65 GB)
     Array Size : 104792064 (99.94 GiB 107.31 GB)
    Data Offset : 65536 sectors
   Super Offset : 8 sectors
   Unused Space : before=65448 sectors, after=0 sectors
          State : active
    Device UUID : 47a6228b:8dd10402:a5bffa94:a7329c3e

    Update Time : Mon Jan 12 11:01:29 2026
  Bad Block Log : 512 entries available at offset 72 sectors
       Checksum : 27de06ef - correct
         Events : 4348

         Layout : near=2
     Chunk Size : 512K

   Device Role : Active device 0
   Array State : AAAA ('A' == active, '.' == missing, 'R' == replacing)

wolverin ★★★
() автор топика
Ответ на: комментарий от anonymous

записи есть, последний раз в прошлом году приходил кто то, думаю проблема в том, что дискам по 12 лет ))

# smartctl -A /dev/sdc
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-26-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   193   051    Pre-fail  Always       -       4660
  3 Spin_Up_Time            0x0027   171   169   021    Pre-fail  Always       -       4408
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       67
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   001   001   000    Old_age   Always       -       105572
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       66
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       51
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       15
194 Temperature_Celsius     0x0022   125   096   000    Old_age   Always       -       22
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       130
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       11

wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от firkax

может, но этот сервер на одном упс с другими висит, блок питания может его конечно, т.к. года 3 назад предыдущий издох забрав с собой мать.

wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от wolverin

да, какие то «левые» диски появились после сбоя

Это не «левые диски». Когда девайс потерян но его нода в /dev открыта (например удерживаестя тем самым md0) то когда устройство появляется снова - оно добавляется как новое в новую ноду - тот самый /dev/sde.

Поэтому с вероятностью 146% у тебя либо устройства на горячую дергали, либо железо чудило и девайсы отваливались и подключались прямо в процессе работы. И не важно что ты думаешь и в чем уверен, потому что факты вещь упрямая - девайсы отваливались и подключались, картина однозначная.

no-dashi-v2 ★★★★
()
Ответ на: комментарий от no-dashi-v2

хорошо, спасибо, я понял, это не диски, физически гарантированно никто ничего не трогал, но и питание не могло за упс скакать, вроде как чистый синус apc smart 3000rm чего то там стоечный должен давать, хотя уже 2 бп сдохло в разных серверах за 15 лет (и ни одного диска).

wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от no-dashi-v2

его нода в /dev открыта

а вот вопрос кстати - открыта «нода» у меня самбой какого то файла, я удаляю его из ссш консоли, заливаю с другой машины через ту же самбу новый файл (обновление 2гис) - ПОЧЕМУ в половине случаев при закрытии первой «ноды» происходит удаление НОВОГО файла???

wolverin ★★★
() автор топика
Ответ на: комментарий от anonymous

объясните - зечем все это? уже не первая тема про то как развалилось и жопа началась.

Если не секрет - а как надо? Ну безтносительно бэкапов и прочего организционного, это понятно.

КМК, чаще вижу темы про RAID5 издохший.

frunobulax ★★★★
()
Ответ на: комментарий от wolverin

1 параметр показывает, что у диска не всё хорошо с чтением. Может контакты голов сильно окислились, может головы уже сильно устали.

199 параметр растёт, когда есть проблемы с передачей данных хосту.

Запусти с ключом "-x", тогда в выхлопе будет лог ошибок, если диск такой ведёт.

В порядке бреда можно открутить плату и почистить контакты голов, если они прям очень зелёные. Может там ещё и по плате кольцевые трещины пошли на пайке разъёмов. Диск всё же очень не молодой.

Radjah ★★★★★
()
Ответ на: комментарий от no-dashi-v2

у меня так диск в R6 с буквы на букву переехал - сбойнул на 2 секторах при заливке 600гб по сети и ушёл в перезагрузку контроллера на диске, потом я посмотрел список дисков и обратно его подпихнул в md благо bitmap было и он минут за несколько вернулся в лоно mdadm, там немного уже оставалось для копирования и bitmap updates и самих данных было мало для заливки на него.

mumpster ★★★★★
()
Ответ на: комментарий от wolverin

поздравляю!
вот начали они дохнуть!
и так-то 10 лет - хороший срок для НЖМД. особенно если там простые desktop series типа blue caviar и медалистов.

кстати, озвучь модель дисков? ну и я крайне не советую r10 без автоматической горячей замены, там легко может быть ситуация когда в обоих половинках разные части сломаны, наперекрёст. и всё!

и у меня дежавю:

mdadm raid10 как восстановить?

mumpster ★★★★★
()
Ответ на: комментарий от Radjah

если речь про Raw_Read_Error_Rate, то это - ерунда сама по себе. у сигейтов он вообще по жизни большой.

главное Reallocated_Sector_Ct, Seek_Error_Rate, Calibration_Retry_Count, Reallocated_Event_Count, Current_Pending_Sector, Offline_Uncorrectable - по нулям

а вот к Power-Off_Retract_Count = 51 - надо присмотреться! но это тоже может быть нормально, YMMV

UDMA_CRC_Error_Count 130 и Multi_Zone_Error_Rate 11 требуют внимания, но сами по себе ничего критического не означают

mumpster ★★★★★
()
Ответ на: комментарий от frunobulax

ну уж точно не в R10 без готовых немедленно запасных дисков. R5 тоже касается и в первую очередь.
R10 - проще тогда два разных зеркала сделать. тем более видим что у них там и md0 и md1.

mumpster ★★★★★
()
Ответ на: комментарий от mumpster

Да уже по твоим советам понял, что там собрать можно из 4х дисков то на системе, в которой диски почти не используются, разделено на 2 чтобы ещё lvm не приплетать и отделить систему от данных.

wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 2)
Ответ на: комментарий от wolverin

я так понял, что осмеивается мой подход?

на самом деле он основан на знании теории, имеющейся практике (в т.ч. других) и некотором обдумывании чокаво
но он требуют предварительного планирования, нужно наметить что, где и как будет храниться. а R10 обычно применяют, чтобы особо не думать, слили 2 диска в 1 большой раздел и лей туда как придётся, не думая. раз астериск, наверное CDR храните и логи? это несложно поделить на разные разделы и диски даже в венде, не говоря уже про линукс.

R10 можно применять при наличии запасного диска, причину я уже назвал. R5, R6 - тоже самое, но там это хотя бы очевидно. R10 - заведомо сложнее простого зеркала и при проблемах это очень важно. даже старт зеркала там сложнее чем R1.

в данном же случае у вас может быть проблемы с питанием, судя по большому Pwr Retract Count. по поведению с внезапным пропаданием и появлением обратно диска -очень похоже. за 12 лет в БП вполне могли электролиты высохнуть.

mumpster ★★★★★
()
Ответ на: комментарий от wolverin

иии?

12 лет назад они все были max 4Тб. щаз можно взять прекрасный бывший hd ultrastar гигов на 8! и переделать на зеркало R1.
всё равно у вас диски к концу сроку службу подходят. вряд ли у вас красные wd RE на 10k.

mumpster ★★★★★
()
Ответ на: комментарий от mumpster

12 лет время работы, а не год выпуска

встал с дивана, сходил глянул для тебя WD1003FBYX

а чо бы сразу не 16 )))

$ df -h
udev                12G            0   12G            0% /dev
tmpfs              2,4G         155M  2,3G            7% /run
/dev/md0            99G         7,5G   86G            9% /
tmpfs               12G            0   12G            0% /dev/shm
tmpfs              5,0M            0  5,0M            0% /run/lock
tmpfs               12G            0   12G            0% /sys/fs/cgroup
/dev/md1           1,7T          93G  1,6T            6% /mnt/archiv
tmpfs              2,4G            0  2,4G            0% /run/user/1000

wolverin ★★★
() автор топика
Ответ на: комментарий от mumpster

то несложно поделить на разные разделы и диски даже в венде, не говоря уже про линукс.

смари таймвеб сервер дал, они систему накатили

$ cat /proc/mdstat
Personalities : [raid0] [raid1] [linear] [multipath] [raid6] [raid5] [raid4] [raid10]
md1 : active raid1 sda3[0] sdb3[1]
      229414912 blocks super 1.2 [2/2] [UU]
      bitmap: 2/2 pages [8KB], 65536KB chunk

md0 : active raid0 sdb2[1] sda2[0]
      7806976 blocks super 1.2 512k chunks

unused devices: <none>

2 раздела через мд и все никакого лишнего гемора, простая система

wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от wolverin

не для меня, а для себя. у меня на сей момент нет выпавших дисков.

это конторский или твой лично?

причины такой разбивки мне понятны, но это плохой подход. у тебя вместо 1 точки отказа - целых 2 - половинки у тебя наверняка в стандартном default stripe. опасность этого я уже описал. я бы просто взял два диска на 2тб, сделал бы из них просто езеркало и перенёс туда md1 тем более он у тебя и так /mnt ;-) а 1тб бы оставил два на выбор, тоже переделал бы на зеркало и систему оставил бы там. а два - положил на полочку, в запас. новых 1тб 7200 сейчас реально нет, эти серии не делаются уже это, всё со склада непонятное

mumpster ★★★★★
()
Ответ на: комментарий от mumpster

у меня тоже нет, ребутнул и почти все автоматом поднялось, не затирал бы принудительно суперблок на одном, так наверное и он бы без проблем поднялся.

заказал 2 по 2, потом закажу еще 2 и на этом все.

wolverin ★★★
() автор топика
Ответ на: комментарий от mumpster

почитал твою ссылку, у меня вообще не то, если б 1 диск выпал, я б сразу знал

все нормально с 10, 4 диска равномерно делят по паре нагрузку и живут 12 лет без проблем, а то вон помню на курсах яндекс рассказывал, как они каждые 3 года диски меняют, потому что потому.

wolverin ★★★
() автор топика
Ответ на: комментарий от wolverin

ну тогда имей в наличии замену.

и насчёт кто сколько живёт - полагаю у меня получше статистика, диски с 2010 работали-работали, а потом начала сыпаться (с 2022-2023). это пример из практики. причём это не бытовой сегмент. на конец лета 25 было заменёно уже больше трети 2" и половина 3", просто на них нагрузка больше.

mumpster ★★★★★
()
Ответ на: комментарий от mumpster

Иссесна, все диски под замену теперь плановую на этом сервере, смысла никакого нет ждать следующего раза и возможный вариант просто исключается.

Возможности хранить запасы нет, все что есть всегда ставится в работу, даже если это просто spare.

wolverin ★★★
() автор топика