LINUX.ORG.RU

NAS Rocky linux 9. проблемы с чтением жёсткого диска. Но с записью всё ок.

 , ,


0

1

Здравствуйте. буквально полгода назад начались какие то рандомные ошибки чтения. но ошибок записи диска нету. с чем это может быть связано? Dmesg показывает только это:

[Sun Sep 28 17:55:26 2025] critical medium error, dev sda, sector 3868712328 op 0x0:(READ) flags 0x80700 phys_seg 79 prio class 2
[Sun Sep 28 17:55:26 2025] ata6: EH complete
[Sun Sep 28 17:55:30 2025] ata6.00: exception Emask 0x0 SAct 0x870 SErr 0x0 action 0x0
[Sun Sep 28 17:55:30 2025] ata6.00: irq_stat 0x40000000
[Sun Sep 28 17:55:30 2025] ata6.00: failed command: READ FPDMA QUEUED
[Sun Sep 28 17:55:30 2025] ata6.00: cmd 60/08:58:88:dd:97/00:00:e6:00:00/40 tag 11 ncq dma 4096 in
                                    res 43/40:08:88:dd:97/00:00:e6:00:00/00 Emask 0x408 (media error) <F>
[Sun Sep 28 17:55:30 2025] ata6.00: status: { DRDY SENSE ERR }
[Sun Sep 28 17:55:30 2025] ata6.00: error: { UNC }
[Sun Sep 28 17:55:30 2025] ata6.00: NCQ Send/Recv Log not supported
[Sun Sep 28 17:55:30 2025] ata6.00: NCQ Send/Recv Log not supported
[Sun Sep 28 17:55:30 2025] ata6.00: configured for UDMA/133
[Sun Sep 28 17:55:30 2025] sd 5:0:0:0: [sda] tag#11 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK cmd_age=3s
[Sun Sep 28 17:55:30 2025] sd 5:0:0:0: [sda] tag#11 Sense Key : Medium Error [current]
[Sun Sep 28 17:55:30 2025] sd 5:0:0:0: [sda] tag#11 Add. Sense: Unrecovered read error
[Sun Sep 28 17:55:30 2025] sd 5:0:0:0: [sda] tag#11 CDB: Read(10) 28 00 e6 97 dd 88 00 00 08 00

При том что если на nas ничего параллельно не качать, удалить битый файл и скопировать заново. уже ошибок не вижу.

Отвал материнки приходит на ум. Покупал на Алиэкспрессе Topton со встроенным Intel N5105. Но может у вас ещё какие то подсказки есть. спасибо. файловая система xfs. Прогонял диск утилитой badsector ничего не находил.

Перемещено Dimez из talks



Последнее исправление: Apophis (всего исправлений: 2)

Это не для Talks вопрос.

seiken ★★★★★
()

Отвал материнки приходит на ум. Покупал на Алиэкспрессе

Это плохо, больше так не делай.

Попробуй перевести sata контроллер в режим legacy ide вместо ahci (в биосе настраивается).

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)

smartctl -a /dev/sda в студию.

Проверь БП, крепко ли сидят шлейфы, прогони badblocks

legolegs ★★★★★
()

Отвал материнки приходит на ум

Нет. Отвалилось бы все, и чтение и запись.

Посмотреть smartctl, конечно же, ты не решился?

no-dashi-v2 ★★★★
()
Ответ на: комментарий от no-dashi-v2

Вот первый диск:

=== START OF INFORMATION SECTION ===
Model Family:     Seagate IronWolf
Device Model:     ST2000VN004-2E4164
Serial Number:    Z526SQBX
LU WWN Device Id: 5 000c50 0b333a19b
Firmware Version: SC60
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5900 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Oct 15 15:17:04 2025 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     192 (intermediate level without standby)
Rd look-ahead is: Enabled
Write cache is:   Enabled
DSN feature is:   Unavailable
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Enabled
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR--   115   087   006    -    87184408
  3 Spin_Up_Time            PO----   095   095   000    -    0
  4 Start_Stop_Count        -O--CK   100   100   020    -    442
  5 Reallocated_Sector_Ct   PO--CK   100   100   010    -    0
  7 Seek_Error_Rate         POSR--   089   060   030    -    816151059
  9 Power_On_Hours          -O--CK   038   038   000    -    55137
 10 Spin_Retry_Count        PO--C-   100   100   097    -    0
 12 Power_Cycle_Count       -O--CK   100   100   020    -    381
184 End-to-End_Error        -O--CK   100   100   099    -    0
187 Reported_Uncorrect      -O--CK   001   001   000    -    784
188 Command_Timeout         -O--CK   100   100   000    -    0
189 High_Fly_Writes         -O-RCK   001   001   000    -    150
190 Airflow_Temperature_Cel -O---K   065   058   045    -    35 (Min/Max 32/42)
191 G-Sense_Error_Rate      -O--CK   100   100   000    -    0
192 Power-Off_Retract_Count -O--CK   100   100   000    -    41
193 Load_Cycle_Count        -O--CK   100   100   000    -    581
194 Temperature_Celsius     -O---K   035   042   000    -    35 (0 20 0 0 0)
197 Current_Pending_Sector  -O--C-   100   100   000    -    0
198 Offline_Uncorrectable   ----C-   100   100   000    -    0
199 UDMA_CRC_Error_Count    -OSRCK   200   200   000    -    0
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

Вот второй диск


=== START OF INFORMATION SECTION ===
Model Family:     Seagate IronWolf
Device Model:     ST2000VN004-2E4164
Serial Number:    Z526PL19
LU WWN Device Id: 5 000c50 0b2fee7ff
Firmware Version: SC60
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5900 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Oct 15 15:18:46 2025 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     192 (intermediate level without standby)
Rd look-ahead is: Enabled
Write cache is:   Enabled
DSN feature is:   Unavailable
ATA Security is:  Disabled, frozen [SEC2]
Wt Cache Reorder: Enabled
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR--   118   097   006    -    170055992
  3 Spin_Up_Time            PO----   095   095   000    -    0
  4 Start_Stop_Count        -O--CK   100   100   020    -    442
  5 Reallocated_Sector_Ct   PO--CK   100   100   010    -    0
  7 Seek_Error_Rate         POSR--   088   060   030    -    799287411
  9 Power_On_Hours          -O--CK   038   038   000    -    55142
 10 Spin_Retry_Count        PO--C-   100   100   097    -    0
 12 Power_Cycle_Count       -O--CK   100   100   020    -    381
184 End-to-End_Error        -O--CK   100   100   099    -    0
187 Reported_Uncorrect      -O--CK   008   008   000    -    92
188 Command_Timeout         -O--CK   100   100   000    -    0
189 High_Fly_Writes         -O-RCK   001   001   000    -    120
190 Airflow_Temperature_Cel -O---K   065   058   045    -    35 (Min/Max 32/42)
191 G-Sense_Error_Rate      -O--CK   100   100   000    -    0
192 Power-Off_Retract_Count -O--CK   100   100   000    -    41
193 Load_Cycle_Count        -O--CK   100   100   000    -    581
194 Temperature_Celsius     -O---K   035   042   000    -    35 (0 20 0 0 0)
197 Current_Pending_Sector  -O--C-   100   100   000    -    8
198 Offline_Uncorrectable   ----C-   100   100   000    -    8
199 UDMA_CRC_Error_Count    -OSRCK   200   200   000    -    0
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning
Apophis
() автор топика

Еслич0, это нормально. В смысле, легко объяснимо. Это слабые сектора. Какое-то время намагниченность держат, а спустя какое-то время, теряют. У тебя по одному диску такие ошибки или по всем? Если по одному, это точно слабые сектора, меняй этот диск. Если по всем - тут больше вариантов, но, скорее всего, материнка.

lenin386 ★★★★
()
Последнее исправление: lenin386 (всего исправлений: 2)
Ответ на: комментарий от lenin386

Видно что по второму проблемы (offline_uncorrectable + current_pending)

no-dashi-v2 ★★★★
()
Ответ на: комментарий от lenin386

А с материнкой и шлейфом у него все нормально, udma crc error count чистый

no-dashi-v2 ★★★★
()
Ответ на: комментарий от Apophis

Какие-то конские числа в аттрибутах 1 и 7. БП напряжение не просаживает? Если не питание, то кажется что оба диски готовятся в страну вечной охоты

cobold ★★★★★
()

А шлейфы к дискам какие? 3 или 6? Бывают контроллеры слабых матерей с 6ками не справляются …

Запись медленней и там успевает пролезть.

mx__ ★★★★★
()
Последнее исправление: mx__ (всего исправлений: 1)
Ответ на: комментарий от Apophis

Это выглядит как обрезаный SMART, должен быть лог ошибок и, если у вас будет лог ошибок, то можете попрбовать сопоставить их с сообщениями в dmesg. Нужно и текущего Power_On_Hours вычесть указаные в журнале power-on lifetime и получить сколько часов назад была ошибка (если диск не выключался) и на это время смотреть ошибки в dmesg. А если в SMART log'е нет ошибок, тогда, может действительно что-то с контроллером/кабелем.

И, вобще, можете изучать ″smartctl -x″, а не ″-a″, там больше циферек :)

mky ★★★★★
()

У меня такое было. Это шлейфы как минимум.

LongLiveUbuntu ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.