LINUX.ORG.RU
ФорумAdmin

Не работает raid на gentoo

 ,


0

0

Здраствуйте, коллеги, нужна ваша квалифицированная помощь. Имею одну серверную железку(dns на ней лежит через xen), в которой находится 4 диска (sda sdb sdc sdd). На каждом диске по 2 раздела. Программно создан md1 (raid1 sd[a1 b1 c1 d1]) и md2 (raid10 sd[a2 b2 c2 d2]). В один прекрасный день в моей сети я не досчитался dns. Полез на сервер система стартует, но xen не запускает виртуалки. Стал смотреть dmesg нашел, что md2 stopped, а так же кучу ошибок sdd2, а так же:

[   17.393380] end_request: I/O error, dev sdd, sector 20981007

Диски убитые в хлам оказались. 13 лет без остановок. mount dev/md2 / :

"mount: /dev/md2: can't read superblock"

Подскажите, пожалуйста, как быть в такой ситуации. Можно ли восстановить все без потери данных. Это единственная железка в моей сети, которая не бэкапилась бакулой.

pollux ~ # dmesg |grep error
[    4.636201] ioapic: probe of 0000:00:13.0 failed with error -22
         res 41/40:00:0f:25:40/00:00:01:00:00/40 Emask 0x409 (media error) <F>
[   12.757823] ata4.00: error: { UNC }
[   12.760114] end_request: I/O error, dev sdd, sector 20981007
[   12.760116] Buffer I/O error on device sdd2, logical block 58
[   12.760118] Buffer I/O error on device sdd2, logical block 59
[   12.760120] Buffer I/O error on device sdd2, logical block 60
[   12.760122] Buffer I/O error on device sdd2, logical block 61
[   12.760123] Buffer I/O error on device sdd2, logical block 62
[   12.760125] Buffer I/O error on device sdd2, logical block 63
[   12.760127] Buffer I/O error on device sdd2, logical block 64
[   12.760132] Buffer I/O error on device sdd2, logical block 65
[   12.760133] Buffer I/O error on device sdd2, logical block 66
[   12.760134] Buffer I/O error on device sdd2, logical block 67
         res 41/40:00:0f:25:40/00:00:01:00:00/40 Emask 0x409 (media error) <F>
[   15.074455] ata4.00: error: { UNC }
[   15.076692] end_request: I/O error, dev sdd, sector 20981007
         res 41/40:00:0f:25:40/00:00:01:00:00/40 Emask 0x409 (media error) <F>
[   17.391201] ata4.00: error: { UNC }
[   17.393380] end_request: I/O error, dev sdd, sector 20981007
[   17.581067] EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
[   17.581362] EXT2-fs (md1): error: couldn't mount because of unsupported optional features (240)
[ 4163.084291] EXT3-fs (md2): error: unable to read superblock
[ 4163.084793] EXT2-fs (md2): error: unable to read superblock

Прошу строго не судите, если вопросы глупые задаю, я пока совсем зеленый)



Последнее исправление: avvio (всего исправлений: 4)

Диски убитые в хлам оказались. 13 лет без остановок.

И без мониторинга.

железка в моей сети, которая не бэкапилась

Голосом вороны из мультика «Прелестно».

Попробуйте вывести sdd из массивов, авось повезет и дело только в нем. Если повезет, то втыкаем новый, пересобираем массив. И посмотрите, что с другими хардами, может они тоже давно на покой просятся.

anc ★★★★★
()
Ответ на: комментарий от Dimez

Там вот так:

pollux ~ # cat /proc/mdstat
Personalities : [raid1] [raid10] [raid6] [raid5] [raid4] [raid0] [linear] [multipath]
md2 : inactive sdc2[4](S) sdd2[3](S) sdb2[5](S) sda2[6](S)
      1911538124 blocks super 1.2

md1 : active raid1 sdc1[0]
      10489344 blocks [4/1] [U___]

unused devices: <none>
avvio
() автор топика
Ответ на: комментарий от anc

Я первым делом вынул все диски и попытался клонировать док станцией. sda и sdb клонировались без проблем. sdc начал, но прервался посередине. sdd отказался через несколько секунд. Так что тоже подозреваю, что дело не только в sdd.

avvio
() автор топика
Ответ на: комментарий от anc

pollux ~ # smartctl -a /dev/sdd
smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.12.13-gentoo-xen-xen10] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital RE3 Serial ATA
Device Model:     WDC WD5002ABYS-02B1B0
Serial Number:    WD-WCASYA761932
LU WWN Device Id: 5 0014ee 2aed17095
Firmware Version: 02.03B03
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.5, 3.0 Gb/s
Local Time is:    Sun Aug  6 16:11:14 2023 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                ( 9480) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 112) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       129
  3 Spin_Up_Time            0x0027   211   182   021    Pre-fail  Always       -       2433
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       299
  5 Reallocated_Sector_Ct   0x0033   029   029   140    Pre-fail  Always   FAILING_NOW 1365
  7 Seek_Error_Rate         0x002e   194   154   000    Old_age   Always       -       3477
  9 Power_On_Hours          0x0032   001   001   000    Old_age   Always       -       115395
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       258
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       243
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       55
194 Temperature_Celsius     0x0022   110   094   000    Old_age   Always       -       37
196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       550
197 Current_Pending_Sector  0x0032   200   198   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

avvio
() автор топика
Ответ на: комментарий от avvio
  5 Reallocated_Sector_Ct   0x0033   029   029   140    Pre-fail  Always   FAILING_NOW 1365


Ну вот и ответ. Собстно ЧТД, за смартом никто не следил. На остальных посмотрите обязательно, они поди из одной партии и с учетом рэйда пользуются с одинаковой нагрузкой.

anc ★★★★★
()
Ответ на: комментарий от anc

НА остальных такой проблемы нет, посмотрел. sda и sdb клонированные поставил. sdc клонировать не дал, но smart не ругается

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   145   143   021    Pre-fail  Always       -       3725
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1419
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       9418
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1412
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       24
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       1394
194 Temperature_Celsius     0x0022   111   099   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

avvio
() автор топика
Ответ на: комментарий от Dimez

Да, думаю sdc2 и sdd2 в raid1, потому и не завелось. Бэдблоки появились на sdd может быть давно, держалось на sdc все. Теперь и он померать начал. Есть какие ни будь способы восстановления?

avvio
() автор топика
Ответ на: комментарий от anc

А если я попытаюсь принудительно оживить этот сектор

[   17.393380] end_request: I/O error, dev sdd, sector 20981007

через hdparm –write-sector, уберу раздел из массива, отчищу суперблок, а потом

mdadm –manage /dev/md2 –add /dev/sdd2

Потеряю данные?

avvio
() автор топика
Ответ на: комментарий от avvio

Вот это попробовать можно: --assemble, а не -add, девайсы и так там. Может повезти...всё равно делать нечего.
У вас на текущий момент из четырех девайсов судя по:

md1 : active raid1 sdc1[0]
      10489344 blocks [4/1] [U___]
жив только sdc, так что шансов мало-мало.

anc ★★★★★
()
Ответ на: комментарий от anc

Прошу простить) Это я скинул сюда смарт sda по ошибке. sda и sdb я клонировал и поставил посвежее, а вот sdc:

pollux ~ # smartctl -a /dev/sdc
smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.12.13-gentoo-xen-xen10] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital RE3 Serial ATA
Device Model:     WDC WD5002ABYS-02B1B0
Serial Number:    WD-WCASYA761571
LU WWN Device Id: 5 0014ee 2042682bf
Firmware Version: 02.03B03
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.5, 3.0 Gb/s
Local Time is:    Sun Aug  6 17:30:20 2023 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                ( 9480) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 112) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       24
  3 Spin_Up_Time            0x0027   239   236   021    Pre-fail  Always       -       1025
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       257
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   001   001   000    Old_age   Always       -       115576
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       255
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       239
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       17
194 Temperature_Celsius     0x0022   113   093   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       4
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       4
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       30

avvio
() автор топика
Ответ на: комментарий от anc

Вроде зачистил, но выдает такое:

pollux ~ # hdparm --write-sector 20981007 --yes-i-know-what-i-am-doing /dev/sdd

/dev/sdd:
re-writing sector 20981007: succeeded
pollux ~ # hdparm --read-sector 20981007 /dev/sdd

/dev/sdd:
reading sector 20981007: succeeded
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000
pollux ~ # mdadm --zero-superblock /dev/sdd2
mdadm: Couldn't open /dev/sdd2 for write - not zeroing

avvio
() автор топика