RAID 5 mdadm. Проблемы после замены жесткого диска.

0

3

Здравствуйте. Я новичок, прошу помощи.

Ubuntu 10.04.4 LTS x86_64, RAID 5 mdadm, размером в 11TB и почти полностью забитый.

# cat /etc/mdadm/mdadm.conf

DEVICE partitions
ARRAY /dev/md0 level=raid5 num-devices=5 metadata=01.00 name=0 UUID=9e051d43:7a446627:0d3aa958:a6c30ba9

Сбойнул один из дисков:

faulty spare   /dev/sde1
State : clean, degraded

В таком состоянии он проработал несколько недель (может и больше). Я размонтировал рейд, удалил сбойный диск из рейда, подготовил новый жесткий для замены и добавил его в рейд.

Утром посмотрел mdstat.

# cat /proc/mdstat

Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sde1[7](S) sdc1[5] sdd1[4] sdb1[1](F) sdf1[6]
      11721058304 blocks super 1.0 level 5, 512k chunk, algorithm 2 [5/3] [__UUU]

unused devices: <none>

# mdadm --detail /dev/md0

mdadm: metadata format 01.00 unknown, ignored.
/dev/md0:
        Version : 01.00
  Creation Time : Mon Nov  4 09:51:43 2013
     Raid Level : raid5
     Array Size : 11721058304 (11178.07 GiB 12002.36 GB)
  Used Dev Size : 5860529152 (5589.04 GiB 6001.18 GB)
   Raid Devices : 5
  Total Devices : 5
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Sat Jan  6 07:14:55 2018
          State : clean, degraded
 Active Devices : 3
Working Devices : 4
 Failed Devices : 1
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 512K

           Name : 0
           UUID : 9e051d43:7a446627:0d3aa958:a6c30ba9
         Events : 750198

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       0        0        1      removed
       5       8       33        2      active sync   /dev/sdc1
       4       8       49        3      active sync   /dev/sdd1
       6       8       81        4      active sync   /dev/sdf1

       1       8       17        -      faulty spare   /dev/sdb1
       7       8       65        -      spare   /dev/sde1

Новый диск, который я добавил:

7       8       65        -      spare   /dev/sde1

И теперь появился еще один сбойный:

1       8       17        -      faulty spare   /dev/sdb1

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       5
  3 Spin_Up_Time            0x0027   142   142   021    Pre-fail  Always       -       11858
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       31
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   050   050   000    Old_age   Always       -       36531
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       31
183 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       25
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       5
194 Temperature_Celsius     0x0022   107   094   000    Old_age   Always       -       45
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       6

# cat /var/log/messages

Jan  6 04:10:18 access kernel: [33259.993923] ata2.00: configured for UDMA/133
Jan  6 04:10:18 access kernel: [33259.993950] ata2: EH complete
Jan  6 04:10:21 access kernel: [33260.285997] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33260.286026] ata2: EH complete
Jan  6 04:10:21 access kernel: [33260.390773] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33260.390797] ata2: EH complete
Jan  6 04:10:21 access kernel: [33260.482241] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33260.482265] ata2: EH complete
Jan  6 04:10:21 access kernel: [33260.573688] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33260.573712] ata2: EH complete
Jan  6 04:10:21 access kernel: [33260.665190] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33260.665228] sd 1:0:0:0: [sdb] Unhandled sense code
Jan  6 04:10:21 access kernel: [33260.665230] sd 1:0:0:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jan  6 04:10:21 access kernel: [33260.665233] sd 1:0:0:0: [sdb] Sense Key : Medium Error [current] [descriptor]
Jan  6 04:10:21 access kernel: [33260.665237] Descriptor sense data with sense descriptors (in hex):
Jan  6 04:10:21 access kernel: [33260.665239]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 01 
Jan  6 04:10:21 access kernel: [33260.665245]         28 f9 78 f4 
Jan  6 04:10:21 access kernel: [33260.665247] sd 1:0:0:0: [sdb] Add. Sense: Unrecovered read error - auto reallocate failed
Jan  6 04:10:21 access kernel: [33260.665252] sd 1:0:0:0: [sdb] CDB: Read(16): 88 00 00 00 00 01 28 f9 78 30 00 00 00 d0 00 00
Jan  6 04:10:21 access kernel: [33260.665263] raid5:md0: read error not correctable (sector 4982403312 on sdb1).
Jan  6 04:10:21 access kernel: [33260.665270] raid5:md0: read error not correctable (sector 4982403320 on sdb1).
Jan  6 04:10:21 access kernel: [33260.665279] ata2: EH complete
Jan  6 04:10:21 access kernel: [33260.764633] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33260.764655] ata2: EH complete
Jan  6 04:10:21 access kernel: [33260.856082] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33260.856105] ata2: EH complete
Jan  6 04:10:21 access kernel: [33260.955856] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33260.955878] ata2: EH complete
Jan  6 04:10:21 access kernel: [33261.055601] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33261.055623] sd 1:0:0:0: [sdb] Unhandled sense code
Jan  6 04:10:21 access kernel: [33261.055625] sd 1:0:0:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jan  6 04:10:21 access kernel: [33261.055628] sd 1:0:0:0: [sdb] Sense Key : Medium Error [current] [descriptor]
Jan  6 04:10:21 access kernel: [33261.055631] Descriptor sense data with sense descriptors (in hex):
Jan  6 04:10:21 access kernel: [33261.055633]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 01 
Jan  6 04:10:21 access kernel: [33261.055638]         28 f9 79 00 
Jan  6 04:10:21 access kernel: [33261.055641] sd 1:0:0:0: [sdb] Add. Sense: Unrecovered read error - auto reallocate failed
Jan  6 04:10:21 access kernel: [33261.055645] sd 1:0:0:0: [sdb] CDB: Read(16): 88 00 00 00 00 01 28 f9 79 00 00 00 00 10 00 00
Jan  6 04:10:21 access kernel: [33261.055655] raid5:md0: read error not correctable (sector 4982403328 on sdb1).
Jan  6 04:10:21 access kernel: [33261.055661] raid5:md0: read error not correctable (sector 4982403336 on sdb1).
Jan  6 04:10:21 access kernel: [33261.055672] ata2: EH complete
Jan  6 04:10:21 access kernel: [33261.155367] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33261.155389] ata2: EH complete
Jan  6 04:10:21 access kernel: [33261.246832] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33261.246854] ata2: EH complete
Jan  6 04:10:21 access kernel: [33261.346604] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33261.346626] ata2: EH complete
Jan  6 04:10:21 access kernel: [33261.446357] ata2.00: configured for UDMA/133
Jan  6 04:10:21 access kernel: [33261.446380] sd 1:0:0:0: [sdb] Unhandled sense code
Jan  6 04:10:21 access kernel: [33261.446382] sd 1:0:0:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jan  6 04:10:21 access kernel: [33261.446385] sd 1:0:0:0: [sdb] Sense Key : Medium Error [current] [descriptor]
Jan  6 04:10:21 access kernel: [33261.446388] Descriptor sense data with sense descriptors (in hex):
Jan  6 04:10:21 access kernel: [33261.446390]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 01 
Jan  6 04:10:21 access kernel: [33261.446396]         28 f9 79 10 
Jan  6 04:10:21 access kernel: [33261.446398] sd 1:0:0:0: [sdb] Add. Sense: Unrecovered read error - auto reallocate failed
Jan  6 04:10:21 access kernel: [33261.446402] sd 1:0:0:0: [sdb] CDB: Read(16): 88 00 00 00 00 01 28 f9 79 10 00 00 00 f0 00 00
Jan  6 04:10:21 access kernel: [33261.446413] raid5:md0: read error not correctable (sector 4982403344 on sdb1).
Jan  6 04:10:21 access kernel: [33261.446418] raid5:md0: read error not correctable (sector 4982403352 on sdb1).
Jan  6 04:10:21 access kernel: [33261.446421] raid5:md0: read error not correctable (sector 4982403360 on sdb1).
Jan  6 04:10:21 access kernel: [33261.446424] raid5:md0: read error not correctable (sector 4982403368 on sdb1).
Jan  6 04:10:21 access kernel: [33261.446426] raid5:md0: read error not correctable (sector 4982403376 on sdb1).
Jan  6 04:10:21 access kernel: [33261.446429] raid5:md0: read error not correctable (sector 4982403384 on sdb1).
Jan  6 04:10:21 access kernel: [33261.446454] ata2: EH complete
Jan  6 04:10:21 access kernel: [33261.453315] md: md0: recovery done.
Jan  6 04:10:21 access kernel: [33261.577963] RAID5 conf printout:
Jan  6 04:10:21 access kernel: [33261.577966]  --- rd:5 wd:3
Jan  6 04:10:21 access kernel: [33261.577969]  disk 0, o:1, dev:sde1
Jan  6 04:10:21 access kernel: [33261.577971]  disk 1, o:0, dev:sdb1
Jan  6 04:10:21 access kernel: [33261.577973]  disk 2, o:1, dev:sdc1
Jan  6 04:10:21 access kernel: [33261.577974]  disk 3, o:1, dev:sdd1
Jan  6 04:10:21 access kernel: [33261.577976]  disk 4, o:1, dev:sdf1
Jan  6 04:10:21 access kernel: [33262.252744] RAID5 conf printout:
Jan  6 04:10:21 access kernel: [33262.252748]  --- rd:5 wd:3
Jan  6 04:10:21 access kernel: [33262.252751]  disk 1, o:0, dev:sdb1
Jan  6 04:10:21 access kernel: [33262.252753]  disk 2, o:1, dev:sdc1
Jan  6 04:10:21 access kernel: [33262.252755]  disk 3, o:1, dev:sdd1
Jan  6 04:10:21 access kernel: [33262.252757]  disk 4, o:1, dev:sdf1
Jan  6 04:10:21 access kernel: [33262.252765] RAID5 conf printout:
Jan  6 04:10:21 access kernel: [33262.252766]  --- rd:5 wd:3
Jan  6 04:10:21 access kernel: [33262.252768]  disk 1, o:0, dev:sdb1
Jan  6 04:10:21 access kernel: [33262.252770]  disk 2, o:1, dev:sdc1
Jan  6 04:10:21 access kernel: [33262.252772]  disk 3, o:1, dev:sdd1
Jan  6 04:10:21 access kernel: [33262.252774]  disk 4, o:1, dev:sdf1
Jan  6 04:10:21 access kernel: [33262.278896] RAID5 conf printout:
Jan  6 04:10:21 access kernel: [33262.278900]  --- rd:5 wd:3
Jan  6 04:10:21 access kernel: [33262.278903]  disk 2, o:1, dev:sdc1
Jan  6 04:10:21 access kernel: [33262.278906]  disk 3, o:1, dev:sdd1
Jan  6 04:10:21 access kernel: [33262.278908]  disk 4, o:1, dev:sdf1

Попытался смонтировать рейд.

# mount -t ext4 /dev/md0 /media/test/

mount: wrong fs type, bad option, bad superblock on /dev/md0

Ссылка

←	Не загружаются сайты при подключении VPN.

Как изменить число попыток входа по SSH

→

Прогони смарттест на sdb диске для начала. Покажи вывод hdparm --read-sector 4982403312 /dev/sdb1 и тоже самое с остальными секторами в ошибках read error not correctable. Проверь фс через fsck.ext4 -v -n /dev/md0

avb
(06.01.18 13:18:04 MSK)

Ответ на: комментарий от avb 06.01.18 13:18:04 MSK

# smartctl -a /dev/sdb1

smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD3000FYYZ-01UL1B1
Serial Number:    WD-WCC131049613
Firmware Version: 01.01K02
User Capacity:    3 000 592 982 016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Sat Jan  6 12:44:24 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 (35040) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 255) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x70bd)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       5
  3 Spin_Up_Time            0x0027   142   142   021    Pre-fail  Always       -       11858
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       31
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   050   050   000    Old_age   Always       -       36536
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       31
183 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       25
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       5
194 Temperature_Celsius     0x0022   106   094   000    Old_age   Always       -       46
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       6

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

# hdparm --read-sector 4982403320 /dev/sdb1

/dev/sdb1:
Device /dev/sdb1 has non-zero LBA starting offset of 2048.
Please use an absolute LBA with the /dev/ entry for the full device, rather than a partition name.
/dev/sdb1 is probably a partition of /dev/sdb (?)
The absolute LBA of sector 4982403320 from /dev/sdb1 should be 4982405368
Aborting.

# hdparm --read-sector 4982403312 /dev/sdb1

/dev/sdb1:
Device /dev/sdb1 has non-zero LBA starting offset of 2048.
Please use an absolute LBA with the /dev/ entry for the full device, rather than a partition name.
/dev/sdb1 is probably a partition of /dev/sdb (?)
The absolute LBA of sector 4982403312 from /dev/sdb1 should be 4982405360
Aborting.

# fsck.ext4 -v -n /dev/md0

e2fsck 1.41.11 (14-Mar-2010)
fsck.ext4: Attempt to read block from filesystem resulted in short read при попытке открыть /dev/md0
Could this be a zero-length partition?

leenkmn
(06.01.18 13:49:52 MSK) автор топика

Ответ на: комментарий от avb 06.01.18 13:18:04 MSK

# hdparm --read-sector 4982403344 /dev/sdb1

/dev/sdb1:
Device /dev/sdb1 has non-zero LBA starting offset of 2048.
Please use an absolute LBA with the /dev/ entry for the full device, rather than a partition name.
/dev/sdb1 is probably a partition of /dev/sdb (?)
The absolute LBA of sector 4982403344 from /dev/sdb1 should be 4982405392
Aborting.

# hdparm --read-sector 4982403352 /dev/sdb1

/dev/sdb1:
Device /dev/sdb1 has non-zero LBA starting offset of 2048.
Please use an absolute LBA with the /dev/ entry for the full device, rather than a partition name.
/dev/sdb1 is probably a partition of /dev/sdb (?)
The absolute LBA of sector 4982403352 from /dev/sdb1 should be 4982405400
Aborting.

# hdparm --read-sector 4982403360 /dev/sdb1

/dev/sdb1:
Device /dev/sdb1 has non-zero LBA starting offset of 2048.
Please use an absolute LBA with the /dev/ entry for the full device, rather than a partition name.
/dev/sdb1 is probably a partition of /dev/sdb (?)
The absolute LBA of sector 4982403360 from /dev/sdb1 should be 4982405408
Aborting.

# hdparm --read-sector 4982403368 /dev/sdb1

/dev/sdb1:
Device /dev/sdb1 has non-zero LBA starting offset of 2048.
Please use an absolute LBA with the /dev/ entry for the full device, rather than a partition name.
/dev/sdb1 is probably a partition of /dev/sdb (?)
The absolute LBA of sector 4982403368 from /dev/sdb1 should be 4982405416
Aborting.

# hdparm --read-sector 4982403376 /dev/sdb1

/dev/sdb1:
Device /dev/sdb1 has non-zero LBA starting offset of 2048.
Please use an absolute LBA with the /dev/ entry for the full device, rather than a partition name.
/dev/sdb1 is probably a partition of /dev/sdb (?)
The absolute LBA of sector 4982403376 from /dev/sdb1 should be 4982405424
Aborting.

# hdparm --read-sector 4982403384 /dev/sdb1

/dev/sdb1:
Device /dev/sdb1 has non-zero LBA starting offset of 2048.
Please use an absolute LBA with the /dev/ entry for the full device, rather than a partition name.
/dev/sdb1 is probably a partition of /dev/sdb (?)
The absolute LBA of sector 4982403384 from /dev/sdb1 should be 4982405432
Aborting.

leenkmn
(06.01.18 14:01:35 MSK) автор топика

Ссылка

Ответ на: комментарий от leenkmn 06.01.18 13:49:52 MSK

hdparm же пишет, что хочет читать с девайса, а не раздела на нём. Даже номер блока пересчитывает.

legolegs ★★★★★
(06.01.18 14:04:32 MSK)
Последнее исправление: legolegs 06.01.18 14:04:42 MSK (всего исправлений: 1)

Ответ на: комментарий от legolegs 06.01.18 14:04:32 MSK

# hdparm --read-sector 4982403312 /dev/sdb

/dev/sdb:
reading sector 4982403312: succeeded
db7a 52af 1318 a771 c384 9790 23e2 e001
d3e1 9e1a 7f81 0323 a19c 4598 4031 c7ba
a6fc 210f 0529 0ab2 5c1a 1212 7019 216f
8dc3 8a8c 777f ff07 ffff ffff 8e00 7ffe
3bfe 85fe 0b00 aa01 94fd adfe f2fe 5900
2a01 f3ff 8800 aaff e1fc f6fb eeff a602
dfff 8d00 b2fa 46ff 5ffd 4402 6809 08fc
02fe b2fc e502 aafe 2c00 0c03 a209 71f7
d3fb 5d00 779f 0569 3ca8 7b8e 07f0 823b
9ed4 3dc6 cf85 bca8 8aa6 b531 6292 ce25
a842 1387 be06 f4af be4f 9028 12b0 841e
1126 3c34 d0ff cabf fdf7 08b6 9034 080f
a7fc 6e63 38a0 600f f7db 980b 50c6 8591
667c f488 779f 056a 9d40 e3ef df1e fa7b
af6b ac1d 65f9 9e57 e6a6 57f7 73ac 7ff5
ed95 5eef 9f32 fc9d fce9 bf93 15fd b42e
d3bb 1e45 f1d7 f487 b18f 6f98 3f75 b58d
33f4 a35e 39f0 dd9f 57fe 9819 615f 75f9
2244 d9ae 779f 056b 24de 2089 5f56 a781
dce6 c4ff 3344 bfcd 4161 c3eb 1f81 23c5
ad0a 1558 99e3 6410 c08e 1ce4 dd40 4711
0d37 3fd3 eb6b 303b 47e0 48f1 d0c4 5d5a
0f3c 8be4 7fd5 7a94 9784 39ed 23fc 2dc0
5fbb 3bc9 779f 046c 3bca ebae 9ca3 c852
e63d 670f c7ec b9b0 06ca 3553 b1ce 4802
d62a 1127 b9ca eef6 7a1e e0aa 0c70 d8b8
4350 bbc1 172d 8ce4 39d0 8cf1 ccb8 38a5
26ff f071 578b 6d24 e798 a701 5837 a997
a579 c3ef 779f 046d 9c48 d2ff 48dd a1af
689e eb31 b9a6 de35 f2d7 3f34 b29c 5d67
a6af dcb6 111a a123 d2f9 69c0 a63a e5b5
5637 9818 6049 1a41 1634 ae61 2991 d004

# hdparm --read-sector 4982403320 /dev/sdb

/dev/sdb:
reading sector 4982403320: succeeded
afce 2ff0 ace7 3b9f dbf9 1ffa fcb7 af99
180b 776e 27a6 912f 4b2f 3706 0110 6cd2
0a14 3c70 879f 060c aeea d7a9 0389 41f2
3ecc 8a99 009f e5b6 66fe be8c b077 f113
8512 eee8 98e8 ea49 1efa 124a 09ff 9aad
84cd bfb0 5560 96dc 311c 673f 30e3 c66b
bb0a 2db9 fc88 074b 0a8e bbf8 0cf9 c662
85c2 43f8 879f 050d 0df9 50a3 d3d1 d3d1
ea64 1cb4 e1e7 e4e1 17f6 3fd6 bb3f 6f5c
0f01 2d3c 0bf8 53b0 51e3 daa0 872c 0d78
7812 acea bb9b 497b 5d18 9069 ae99 c72e
26ff 65ec f460 7885 52c2 2005 e0dc d5da
81a5 0dae 879f 060e 1f29 2fe4 4fe3 f877
57dd bd37 8ed4 2dfa ecef e30f 9203 2d1f
6f37 c3bd 2ff8 00ef b7fe b4be 478f 8fac
1a1a 13be dc4b 90a7 4ff1 3710 90ed 320b
3806 a2ce 06e6 82a4 0cd0 b9ff 2120 8993
a3ee 1347 877f ff01 ffff ffff 18fe 74fe
6afe 9200 0afe bcfe 5ffd dbfe 65ff 2f01
c100 c5ff cfff 84ff 08fd 77fb 8000 2f04
b000 da00 f5fa cafe 10fd 4601 ed09 0afe
6bfc 7ffc 3d02 a9ff 95ff 3a03 a609 2ff9
aafb 4d00 879f 080f 6ca8 1b9f 9d37 5d90
c140 10f9 f8df a1a7 91b5 49df 1e9b 3619
cc1f 7b5b b7a5 73e1 9744 d76f 8d71 3849
0285 b6a3 568a 016e c200 454b a9fc 7b7e
27fd b7b6 fd7b 57b9 f096 a708 5406 e49a
0e9a 60a0 879f 0810 affe 6fea f4e2 58fe
35fe a9fe 7fee af09 ff70 ff3f ae49 df7e
31f2 f9b3 1f24 7fe9 cee5 f2af fb9f f24f
f36f 3eb9 a084 5612 4b20 8224 4957 8003
9c0c ceff c99f ea1b 399b b406 8153 31f4

leenkmn
(06.01.18 14:09:48 MSK) автор топика

Ссылка

Ответ на: комментарий от legolegs 06.01.18 14:04:32 MSK

# hdparm --read-sector 4982403344 /dev/sdb

/dev/sdb:
reading sector 4982403344: succeeded
48ff d9fe 4eff aa01 8afd 03ff fffe 1900
6a01 b400 ecff 38ff 5efc 51fc 9100 8c03
f3ff d300 33fb c1ff 87fc d201 8209 d0fc
65fd 0cfd 3203 83ff f2ff cd02 a709 b8f7
e8fb 3600 979f 090f 2c19 9fdb b9c6 80c9
bbf6 8ab3 0dd0 ab0a 9fbf 953f 73fd f665
c966 98da 11cf cfd5 592d 5c2a c2a1 282b
e304 2dcf 7d95 d57c 5054 ad46 2e3c 1106
2dfa e868 bab7 1b3e 0646 9519 edef 0fad
8909 32e0 979f 0810 bed8 f9d1 9dfd 3eca
3cda de02 f745 bfd1 df75 f853 997c 190f
7087 9544 3edb d6e7 7776 0d3f 846f 375a
61c5 3fd5 fc6c c9fe cea1 75c9 261c d01a
8f38 8f6a cfe9 f7e3 77fd b5ef 711f da87
af15 070b 979f 0811 3faa 96c8 8507 0107
2d2e 5bf0 9901 2baa 8a83 cad7 c7e4 b649
0cd2 f6f7 23aa f14b 4670 8f03 c48e 7e14
0122 b5ac 458d 0d10 c702 b60c fa2a 9ca2
a6fd fbc5 9c2b 2b4b 5700 a20b 495d e76c
bf9c f3f0 979f 0812 1df0 79ee 0ac8 fabd
78c8 dbb8 83b0 bfdb af73 d62e df78 5834
2483 1340 07ed 1d12 108d ea92 045f 3815
17bc 08ec aa50 a810 0075 1e82 6af7 9c3e
2600 34e1 071f 080b 151f 2604 e795 c280
e148 f630 979f 0913 afe5 6be6 bbfb c6ff
bd9e ebf3 cdee afe5 b76f d833 3ef6 db9e
98f3 f425 2fe3 2ce5 e9dc e042 ee57 fe92
cd5c adeb 65f3 b5a9 ae29 afa4 abee 7db4
3803 a32f 7fc2 dcd9 dece 3203 41a0 a834
33e3 9c43 979f 0714 2812 43ff 21ff 26f6
9d4d d85d 4d21 affe 4fe3 9fea 1de4 12f0
b0dc 1fbc 6cd4 45d9 c79f d1c1 92dc 4c6e

# hdparm --read-sector 4982403352 /dev/sdb

/dev/sdb:
reading sector 4982403352: succeeded
e50f e35f 37b3 ab18 38cd 5fcb 5679 cc1e
99ba 2bb4 e2e2 4875 dca5 312d 688c 3d86
26fc fb1c 1491 5acf 2610 140e cab4 8c75
1958 e5ce 979f 083f 3dc3 91db 54f6 e0ba
7e21 f193 9870 2fc8 0891 8d48 0761 9323
f180 7bc7 94c9 6ccf 35a2 d770 a6a3 c35f
5bc0 a1c2 b87e ba20 c821 7ee7 f850 430c
26ff 6341 525b 40f2 2710 2702 5830 7037
c85b 58f0 979f 0840 1c6e c8bf c6df d7bc
bbf7 9a62 d61d 9872 25ff 227f ad9f 3af6
3aee efa7 adea e49f 270b e755 9a3a a496
2039 a9e9 ff6f 2f28 6337 0a7c f968 a450
3dfe 6b74 4d5c 5043 43d1 3efc 937e 614e
0d6e 4c2d 979f 0841 2df5 e8df 760f 5fc1
b373 b6b5 3bff 2d0c 5bdf fff8 5db8 d69f
c6df dde8 2de9 e7ef b59e dfba 7a2f 6a36
b9f9 3bd5 bb3b 8096 2a13 e460 e65a bf64
aafa 228e 0cd8 c5c5 61c2 1a15 f7fa 1e1d
6c23 413a 979f 0842 bfe7 25e8 fff9 57c8
ca83 77f7 3cc5 2fd9 3fec 1ee3 f1ff f3a7
5fc6 de7f af04 2ee6 f4bf f44f 5b37 fcbf
da75 2f02 dfe6 ffe2 3fe9 5fe7 ece4 c7ff
3908 235f d504 801c 067c 3301 c364 58c5
024b 5537 979f 0843 30af 001d d670 f16b
d21b 53cf dcb3 9eb9 39d9 4049 8c0a 6f1c
06cd 3ffe 2cb0 0ff3 0d21 1e1e fe06 be3a
ec59 a4b6 7891 c1c7 771c 0c78 0369 685e
a6fb a2e3 1084 c608 f91b 9b0f 7bc8 19b4
ef2d 9ee3 979f 0744 18c8 caa5 4fe3 3c26
c381 7014 064e 29c6 b574 98b9 2328 c5f2
6fad 9ff1 29ce 30c6 e250 2705 0e1d 2b73
cbeb 2fd1 c9a7 362a cf51 cec4 7aae b29f

leenkmn
(06.01.18 14:22:29 MSK) автор топика

Ответ на: комментарий от leenkmn 06.01.18 14:22:29 MSK

Постить сюда содержимое своих дисков было вовсе не обязательно, важен лишь сам факт того, что раньше сектора не читались, а теперь читаются.

Очевидно, сбойные диски надо вывести из массива, протестировать и выкинуть либо оставить.

По сути темы ничего не скажу, с md не работал.

legolegs ★★★★★
(06.01.18 14:29:26 MSK)

Ссылка

Забыл единичку убрать когда копировал, но вижу уже разобрались. Видно что сектора читаются которые раньше не считывались. Можно попробовать сделать НА СВОЙ СТРАХ И РИСК mdadm /dev/md0 --re-add /dev/sdb1 по ману кажется она делает то что нужно. Не плохо было бы перед выполнением команды сделать ещё копию этого диска и опробовать все действия в виртуалке чтобы увидеть хоть какой то результат перед тем как рисковать 11TB.
Или подождать более знающих людей которые дадут совета. Ну и на всякий случай при ребилде уменьшай максимальную скорость синхронизации чтобы не нагружать диски.

avb
(06.01.18 16:01:24 MSK)

Ссылка

размером в 11TB

Дурацкая затея делать софтовые рейды такого размера. У тебя память хоть есс?

~~Bobby_~~
(06.01.18 16:04:32 MSK)

Ответ на: комментарий от Bobby_ 06.01.18 16:04:32 MSK

Это все не я поднимал, приходиться обслуживать и набираться опыта. Стояла задача, пока никто не работает, заменить сбойный жесткий в рейде. Ну вот и заменил... и опыта набрался...

# dmidecode -t 16

# dmidecode 2.9
SMBIOS 2.7 present.

Handle 0x0027, DMI type 16, 23 bytes
Physical Memory Array
	Location: System Board Or Motherboard
	Use: System Memory
	Error Correction Type: Single-bit ECC
	Maximum Capacity: 32 GB
	Error Information Handle: No Error
	Number Of Devices: 4

leenkmn
(06.01.18 16:23:33 MSK) автор топика

Ответ на: комментарий от leenkmn 06.01.18 16:23:33 MSK

и опыта набрался...

Тут надо было сначала спросить. Думаю, уже многие столкнулись с ситуацией, когда при перестройке массива отказывают остальные диски.

~~Bobby_~~
(06.01.18 17:11:32 MSK)

Ссылка

Последовательность ваших действий покажите.

anc ★★★★★
(07.01.18 00:30:10 MSK)

Ответ на: комментарий от anc 07.01.18 00:30:10 MSK

Удалил сбойный диск из рейда:

# mdadm -r /dev/md0 /dev/sde1

Отключил сервер, нашел сбойный диск по серийному номеру и поставил новый в корзину.

Включил сервер, подготовил новый жесткий для замены:

# parted -a optimal /dev/sde
(parted) mklabel gpt
(parted) unit s
(parted) mkpart primary 2048s 100%
(parted) set 1 raid on
(parted) quit

Добавил его в рейд:

# mdadm --add /dev/md0 /dev/sde1

В screen'е запустил:

# watch cat /proc/mdstat

На утро получил такой вывод:

Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sde1[7](S) sdc1[5] sdd1[4] sdb1[1](F) sdf1[6]
      11721058304 blocks super 1.0 level 5, 512k chunk, algorithm 2 [5/3] [__UUU]

unused devices: <none>

leenkmn
(07.01.18 09:41:27 MSK) автор топика

Ответ на: комментарий от leenkmn 07.01.18 09:41:27 MSK

Так рейд то работает? Или нет? Ты писал, что что-то не монтируется.

legolegs ★★★★★
(07.01.18 10:37:20 MSK)

Ответ на: комментарий от legolegs 07.01.18 10:37:20 MSK

Примонтировать рейд не могу. Пугает еще это:

Array Size : 11721058304 (11178.07 GiB 12002.36 GB)
Used Dev Size : 5860529152 (5589.04 GiB 6001.18 GB)

Когда он нормально функционировал, там было примерно 500GB свободного места.

leenkmn
(07.01.18 10:47:12 MSK) автор топика

Ссылка

Ответ на: комментарий от anc 07.01.18 00:30:10 MSK

Решил передобавить сбойный диск.

# mdadm -r /dev/md0 /dev/sdb1
# mdadm --re-add /dev/md0 /dev/sdb1

Он добавился как spare. Я остановил массив и теперь...

# mdadm --assemble --scan --force -v

mdadm: metadata format 01.00 unknown, ignored.
mdadm: looking for devices for /dev/md0
mdadm: no RAID superblock on /dev/sdf
mdadm: /dev/sdf has wrong uuid.
mdadm: no RAID superblock on /dev/sde
mdadm: /dev/sde has wrong uuid.
mdadm: no RAID superblock on /dev/sdd
mdadm: /dev/sdd has wrong uuid.
mdadm: no RAID superblock on /dev/sdc
mdadm: /dev/sdc has wrong uuid.
mdadm: no RAID superblock on /dev/sdb
mdadm: /dev/sdb has wrong uuid.
mdadm: cannot open device /dev/sda4: Device or resource busy
mdadm: /dev/sda4 has wrong uuid.
mdadm: cannot open device /dev/sda3: Device or resource busy
mdadm: /dev/sda3 has wrong uuid.
mdadm: no RAID superblock on /dev/sda2
mdadm: /dev/sda2 has wrong uuid.
mdadm: cannot open device /dev/sda1: Device or resource busy
mdadm: /dev/sda1 has wrong uuid.
mdadm: cannot open device /dev/sda: Device or resource busy
mdadm: /dev/sda has wrong uuid.
mdadm: /dev/sdf1 is identified as a member of /dev/md0, slot 4.
mdadm: /dev/sde1 is identified as a member of /dev/md0, slot -1.
mdadm: /dev/sdd1 is identified as a member of /dev/md0, slot 3.
mdadm: /dev/sdc1 is identified as a member of /dev/md0, slot 2.
mdadm: /dev/sdb1 is identified as a member of /dev/md0, slot -1.
mdadm: no uptodate device for slot 0 of /dev/md0
mdadm: no uptodate device for slot 1 of /dev/md0
mdadm: added /dev/sdd1 to /dev/md0 as 3
mdadm: added /dev/sdf1 to /dev/md0 as 4
mdadm: added /dev/sde1 to /dev/md0 as -1
mdadm: added /dev/sdb1 to /dev/md0 as -1
mdadm: added /dev/sdc1 to /dev/md0 as 2
mdadm: /dev/md0 assembled from 3 drives and 2 spares - not enough to start the array.

leenkmn
(07.01.18 18:06:35 MSK) автор топика

Ответ на: комментарий от leenkmn 07.01.18 18:06:35 MSK

У вас raid 5 из пяти дисков, живых только три.

anc ★★★★★
(08.01.18 13:59:04 MSK)

Ответ на: комментарий от anc 08.01.18 13:59:04 MSK

Есть смысл делать посекторное копирование дисков из массива? Или уже информация не подлежит восстановлению?

leenkmn
(08.01.18 16:23:41 MSK) автор топика

Ответ на: комментарий от leenkmn 08.01.18 16:23:41 MSK

В целом смысл есть в тех случаях, когда затраченные усилия/время имеют смысл сами по себе. Сейчас у вас в массиве 3 живых + 2 spare(один из которых мертв), где еще два не понятно. Судя по описанию вы поменяли один из spare. Честно говоря с таким экстримом не сталкивался, но исходя из теории не могли внезапно пропасть два харда, у вас там случайно не проходной двор?
Я безусловно могу ошибаться, но вашу картину вижу ровно так как описал выше.

anc ★★★★★
(08.01.18 17:02:21 MSK)

Ответ на: комментарий от anc 08.01.18 17:02:21 MSK

Хотяяя... судя по вопросу, не случилось ли так что у вас там пара корзин с дохлыми хардами? Например так: дохнет первый, начинает использоваться первый spare, потом дохнет второй и дальше начинают умирать spare до перестройки массива. Но вот вы о смерти первых двух хардов почему-то не узнали.

anc ★★★★★
(08.01.18 17:12:50 MSK)

Ответ на: комментарий от anc 08.01.18 17:12:50 MSK

Отдельно серверное помещение, дежурные. Перед заменой сбойного диска все работало, дождался пока все работники закончат работу, проверил S.M.A.R.T. на всех дисках. Я не знаю, как так вышло...

leenkmn
(08.01.18 18:47:28 MSK) автор топика

Ответ на: комментарий от leenkmn 08.01.18 18:47:28 MSK

Возможно вы меня не поняли. Если пересчитать «по головам» видимые в системе и физически воткнутые в корзины харды, то случайно не окажется что первых меньше?
Но это так, лирика, на тему разборки что же произошло.

anc ★★★★★
(08.01.18 18:58:39 MSK)

Ответ на: комментарий от anc 08.01.18 18:58:39 MSK

Система показывала 6 дисков. Все 6 дисков на месте, 5 дисков для рейда и один для системы, все серийные номера сходятся.

leenkmn
(08.01.18 19:14:24 MSK) автор топика

Ответ на: комментарий от leenkmn 08.01.18 19:14:24 MSK

Клево, и как так получилось что всего 3 из 5-ти в рейде а остальные два в нем под spare ? И еще два из массива отсутствуют?
Вангую что даже по обьему подсчитаете, у вас же 3ТБ харды были (наискосок общий обьем сходиться)?

anc ★★★★★
(08.01.18 19:19:40 MSK)

Ответ на: комментарий от anc 08.01.18 19:19:40 MSK

Jan  6 04:10:21 access kernel: [33261.453315] md: md0: recovery done.
Jan  6 04:10:21 access kernel: [33261.577963] RAID5 conf printout:
Jan  6 04:10:21 access kernel: [33261.577966]  --- rd:5 wd:3
Jan  6 04:10:21 access kernel: [33261.577969]  disk 0, o:1, dev:sde1
Jan  6 04:10:21 access kernel: [33261.577971]  disk 1, o:0, dev:sdb1
Jan  6 04:10:21 access kernel: [33261.577973]  disk 2, o:1, dev:sdc1
Jan  6 04:10:21 access kernel: [33261.577974]  disk 3, o:1, dev:sdd1
Jan  6 04:10:21 access kernel: [33261.577976]  disk 4, o:1, dev:sdf1
Jan  6 04:10:21 access kernel: [33262.252744] RAID5 conf printout:
Jan  6 04:10:21 access kernel: [33262.252748]  --- rd:5 wd:3
Jan  6 04:10:21 access kernel: [33262.252751]  disk 1, o:0, dev:sdb1
Jan  6 04:10:21 access kernel: [33262.252753]  disk 2, o:1, dev:sdc1
Jan  6 04:10:21 access kernel: [33262.252755]  disk 3, o:1, dev:sdd1
Jan  6 04:10:21 access kernel: [33262.252757]  disk 4, o:1, dev:sdf1
Jan  6 04:10:21 access kernel: [33262.252765] RAID5 conf printout:
Jan  6 04:10:21 access kernel: [33262.252766]  --- rd:5 wd:3
Jan  6 04:10:21 access kernel: [33262.252768]  disk 1, o:0, dev:sdb1
Jan  6 04:10:21 access kernel: [33262.252770]  disk 2, o:1, dev:sdc1
Jan  6 04:10:21 access kernel: [33262.252772]  disk 3, o:1, dev:sdd1
Jan  6 04:10:21 access kernel: [33262.252774]  disk 4, o:1, dev:sdf1
Jan  6 04:10:21 access kernel: [33262.278896] RAID5 conf printout:
Jan  6 04:10:21 access kernel: [33262.278900]  --- rd:5 wd:3
Jan  6 04:10:21 access kernel: [33262.278903]  disk 2, o:1, dev:sdc1
Jan  6 04:10:21 access kernel: [33262.278906]  disk 3, o:1, dev:sdd1
Jan  6 04:10:21 access kernel: [33262.278908]  disk 4, o:1, dev:sdf1

leenkmn
(08.01.18 19:24:12 MSK) автор топика

Ответ на: комментарий от leenkmn 08.01.18 19:24:12 MSK

Я же не спрашиваю про то что сейчас, я про то как такое получилось?

anc ★★★★★
(08.01.18 19:25:52 MSK)

Ответ на: комментарий от anc 08.01.18 19:25:52 MSK

Я не знаю как так получилось...

leenkmn
(08.01.18 19:30:04 MSK) автор топика

Ответ на: комментарий от leenkmn 08.01.18 19:30:04 MSK

Объясняю еще раз. У вас массив raid5 из пяти хардов ( предположительно 3Тб каждый), в вашем массиве не хватает двух. Что происходило со spare мы не знаем. Но вы говорите что поменяли только один spare. Где же два харда из массива? Они же случайно исчезнуть не могли, хотя бы на основании общего объема массива, т.е. раньше они точно были.

anc ★★★★★
(08.01.18 19:38:51 MSK)
Последнее исправление: anc 08.01.18 19:43:32 MSK (всего исправлений: 1)

Ответ на: комментарий от anc 08.01.18 19:38:51 MSK

Было 5 дисков в массиве по 3TB каждый, один сбойнул и я в ту же корзину поставил новый на замену и добавил в массив. Утром, тот который я добавил был помечен как spare и еще один, который был рабочий стал faulty. На следующий день я удалил faulty диск из массива и попытался передобавить его --re-add. Он добавился почему-то как spare или faulty spare. Я остановил массив и попытался его собрать.

mdadm: /dev/md0 assembled from 3 drives and 2 spares - not enough to start the array.

leenkmn
(08.01.18 19:53:59 MSK) автор топика

Ответ на: комментарий от leenkmn 08.01.18 19:53:59 MSK

Разворачивайте из бэкапа. Не мучайте не себя не нас, как понять что было в промежутке вы уже явно нам не расскажите.
Хотя писал выше, скорее всего при ребилде на новый spare «не успели» умер первый. Смерть двух хардов raid5 не переживает.

anc ★★★★★
(08.01.18 20:12:58 MSK)