LINUX.ORG.RU
ФорумAdmin

Проблема с жёстким диском

 ,


1

3

У меня имеется гипервизор, на котором у меня запускаются виртуальные машины. Недавно все виртуальные машины начали тормазить или же вообще выводить ошибку ввода/вывода.

В логах при этом на самом гипервизоре:

[ 3737.169514] blk_update_request: I/O error, dev sdc, sector 692530183
[ 3737.169519] Buffer I/O error on dev sdc, logical block 86566272, async page read
[ 3737.169537] ata7: EH complete
[ 3739.437775] ata7.00: exception Emask 0x0 SAct 0x20 SErr 0x0 action 0x0
[ 3739.437781] ata7.00: irq_stat 0x40000008
[ 3739.437787] ata7.00: failed command: READ FPDMA QUEUED
[ 3739.437799] ata7.00: cmd 60/08:28:00:2c:47/00:00:29:00:00/40 tag 5 ncq dma 4096 in
                        res 41/40:00:07:2c:47/00:00:29:00:00/40 Emask 0x409 (media error) <F>
[ 3739.437805] ata7.00: status: { DRDY ERR }
[ 3739.437809] ata7.00: error: { UNC }
[ 3739.447097] ata7.00: configured for UDMA/133
[ 3739.447114] sd 6:0:0:0: [sdc] tag#5 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 3739.447118] sd 6:0:0:0: [sdc] tag#5 Sense Key : Medium Error [current] 
[ 3739.447123] sd 6:0:0:0: [sdc] tag#5 Add. Sense: Unrecovered read error - auto reallocate failed
[ 3739.447127] sd 6:0:0:0: [sdc] tag#5 CDB: Read(10) 28 00 29 47 2c 00 00 00 08 00
[ 3739.447130] blk_update_request: I/O error, dev sdc, sector 692530183
[ 3739.447136] Buffer I/O error on dev sdc, logical block 86566272, async page read
[ 3739.447154] ata7: EH complete

Что это и как это исправить?

★★★★★

Тут два варианта. Или диск или контроллер. Для начала посмотреть на выхлоп smartctl -a /dev/XXX где XXX название вашего диска.
ЗЫ Докину. Помирающий БП такое может организовывать, ну и шлейфы такое могут привнести. Но сначала таки смотрим smart, а только потом всё остальное.

anc ★★★★★
()
Ответ на: комментарий от anc
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       11
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       5691
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       2429
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   068   068   000    Old_age   Always       -       23456
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2408
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       509
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       1919
194 Temperature_Celsius     0x0022   106   090   000    Old_age   Always       -       46
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       7
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     23456         692530183
ne-vlezay ★★★★★
() автор топика
Последнее исправление: ne-vlezay (всего исправлений: 1)
Ответ на: комментарий от anc

Помирающий БП такое может организовывать

Или преобразователь напряжения на системной плате. Сталкивался, когда замена вспухших конденсаторов решила аналогичную проблему.

greenman ★★★★★
()
Ответ на: комментарий от ne-vlezay

Нигде не сказано, что дисков несколько.

Хотя вот здесь один из четырёх дисков начал сыпать ошибками. Проблема была в конденсаторах.

Some of the DC/DC boards electrolytic capacitors were bulgy and I couldn’t even find a datasheet for their brand so I decided to replace them all with fresh low ESR ones. Needless to say that solved the problem and it now works fine (11.83V) again.

И да, если в выхлопе пошли адреса конкретных секторов, то это уже скорее всего проблемы самого диска.

greenman ★★★★★
()
Ответ на: комментарий от ne-vlezay

Если есть ненулевое значение в Reallocated_Sector_Ct, Current_Pending_Sector или Offline_Uncorrectable - это повод начать миграцию с этого диска нахрен, пока он не посыпался окончательно.

Pinkbyte ★★★★★
()
Ответ на: комментарий от ne-vlezay

Ну вариантов у тебя в общем-то немного - можно запланировать миграцию(купить новое железо и т.д.), а можно дождаться пока уже просто переносить будет нечего, лол

Pinkbyte ★★★★★
()
Ответ на: комментарий от Pinkbyte

Обычно в нормальных HDD битые сектора сами ремапятся. И так до того момента, пока от данных останется одна энтропия… А место уменьшится с 2тб до 14гб.

ne-vlezay ★★★★★
() автор топика
Ответ на: комментарий от ne-vlezay

А вот и нет, недавно посыпался диск из наса, с нулевым Reallocated_Event_Count. Так что если это диск для игрушек или фильмов, да и фиг с ним, а если что-то более важное, то бегом в магазин.

Апд. Высыпался из рейда со значением pending sectors 2, при 1 был ещё вполне работоспособный. Текущее значение 8 или 9.

einhander ★★★★★
()
Последнее исправление: einhander (всего исправлений: 1)
Ответ на: комментарий от ne-vlezay

Обычно в нормальных HDD битые сектора сами ремапятся

Во-первых, количество резервных секторов ограничено, и бесконечно ремапить не удастся.

А во-вторых, если процесс разваливания диска пошел, то дальше будет только прогрессировать. Количество битых не остановится на текущих восьми секторах, не надейся

Chord ★★★
()
Ответ на: комментарий от Chord

Сделал:

hdparm --repair-sector 692530183 /dev/sdd

После этого:

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       13
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       3108
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       2476
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   068   068   000    Old_age   Always       -       23469
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2455
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       555
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       1920
194 Temperature_Celsius     0x0022   115   090   000    Old_age   Always       -       37
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   199   199   000    Old_age   Always       -       355
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       7

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       20%     23464         692530183
# 2  Extended offline    Completed: read failure       90%     23456         692530183

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
ne-vlezay ★★★★★
() автор топика
Последнее исправление: ne-vlezay (всего исправлений: 1)
Ответ на: комментарий от anc
=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Black
Device Model:     WDC WD2002FAEX-007BA0
Serial Number:    WD-WCAY01775680
LU WWN Device Id: 5 0014ee 25e5f1a9a
Firmware Version: 05.01D05
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 2.6, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sat Oct 15 20:13:05 2022 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
ne-vlezay ★★★★★
() автор топика
Ответ на: комментарий от AVL2

одно непонятно, почему он ничего не реаллоцировал?

Вопрос не ко мне. Скорее к ТС. Да и какое значение имеет было переназначение секторов или нет? Диск начал сыпаться (Current_Pending_Sector), вот о чем думать надо.

Chord ★★★
()
Последнее исправление: Chord (всего исправлений: 1)
Ответ на: комментарий от Chord

но я много раз наблюдал, как реаллокация происходит сама собой. Без викторий. А чекдиск вообще с дисками не работает. Его дело - файловая система. Он может пометить битые сектора на уровне файловой системы.

AVL2 ★★★★★
()
Последнее исправление: AVL2 (всего исправлений: 1)
Ответ на: комментарий от AVL2
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       25
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       5558
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       2479
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   068   068   000    Old_age   Always       -       23495
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2457
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       556
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       1922
194 Temperature_Celsius     0x0022   110   090   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   199   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0030   199   199   000    Old_age   Offline      -       368
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   196   196   000    Old_age   Offline      -       854

Сейчас такая картина

ne-vlezay ★★★★★
() автор топика
Ответ на: комментарий от ne-vlezay
197 Current_Pending_Sector  0x0032   200   199   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0030   199   199   000    Old_age   Offline      -       368

Я думаю, причина здесь. Он не может ничего реаллоцировать и просто отображает как неизлечимое.

AVL2 ★★★★★
()