LINUX.ORG.RU

[HDD] failed command: READ DMA EXT


1

0

Доброого времени суток.

Заметил в логах следующее:

debian kernel: [ 1358.084798] ata3.00: exception Emask 0x100 SAct 0x0 SErr 0x0 action 0x6
debian kernel: [ 1358.084806] ata3.00: BMDMA stat 0x25
debian kernel: [ 1358.084812] ata3.00: failed command: READ DMA EXT
debian kernel: [ 1358.084821] ata3.00: cmd 25/00:00:4d:aa:d8/00:01:4a:00:00/e0 tag 0 dma 131072 in
debian kernel: [ 1358.084823]          res 51/40:ef:57:aa:d8/40:00:4a:00:00/e0 Emask 0x9 (media error)
debian kernel: [ 1358.084828] ata3.00: status: { DRDY ERR }
debian kernel: [ 1358.084831] ata3.00: error: { UNC }
debian kernel: [ 1358.084847] ata3: hard resetting link
debian kernel: [ 1358.404059] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 3F0)
debian kernel: [ 1358.421075] ata3.00: configured for UDMA/133
debian kernel: [ 1358.421098] ata3: EH complete

Обратил внимание на это когда обнаружил редкие фризы чтения с этого диска.

На smartctl -H /dev/sda ругани нет, но на тесты результат такой:

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      2142         858299943
# 2  Short offline       Completed: read failure       90%      2142         858299943

Готовиться к худшему ?

Сейчас ищу бэды.

PS НЖМД - WD green 1TB, фс - reiserfs ошибок не находит

Ответ на: комментарий от KPSS

Для начала просто вынуть и вставить кабель обратно — иногда помогает.

Aceler ★★★★★ ()

Тоже хотел написать о кабеле, но похоже это таки не кабель, а винт. Поясню почему, у меня как раз на днях отвалился кабель, так ошибок было много, но других.


Jul 20 14:34:46 q45 kernel: ata1.00: cmd c8/00:00:7c:95:70/00:00:00:00:00/e2 tag 0 dma 131072 in
Jul 20 14:34:46 q45 kernel:         res 51/84:ef:8d:95:70/00:00:00:00:00/e2 Emask 0x30 (host bus error)
Jul 20 14:34:46 q45 kernel: ata1.00: status: { DRDY ERR }
Jul 20 14:34:46 q45 kernel: ata1.00: error: { ICRC ABRT }
Jul 20 14:34:46 q45 kernel: ata1: soft resetting link
Jul 20 14:34:46 q45 kernel: ata1.00: configured for UDMA/133

Вот - host bus error

В тоже самое время у меня grep media /var/log/messages* не выдает ничего, а в данном случае именно media error.

Поэтому таки да, готовится к худшему.

vga ★★ ()
Ответ на: комментарий от vga

> Тоже хотел написать о кабеле, но похоже это таки не кабель, а винт

Почему похоже - так и есть, винт сообщает о media error

anonymous ()
Ответ на: комментарий от anonymous

Почему похоже - так и есть, винт сообщает о media error

Ну я это и имею ввиду, а «похоже» - это на случайный 0.001% вероятности «всякое бывает, мало ли».

vga ★★ ()

Только вчера подобное у себя исправлял (успешно). MHDD восстановил три софт-бэда.

isn ★★ ()
Ответ на: комментарий от isn

Вот есть подозрение, что это софт-бэды, вообще, разбираться стал после того как грохнулась корневая фс из-за плохого контакта на разъёме питания.

badblocks /dev/sda3 (именно раздел, а не всё устройство) находил бэды. На расстройствах снёс всю фс (тем более, что там всё старое было и пришло время переделать кое-что), бэды исчезли.

В данном случае всё несколько сложнее ибо на разделе данных гигов на 800, действительно нужного из этого не так много, но всё же не хотелось бы терять, а забэкапить пока некуда. Попробую с mhdd поколдовать.

+ спокойствие SMART'а наводит на мысли, как что определится - отпишусь.

temporary ★★ ()
Ответ на: комментарий от temporary

MHDD с ремапом - долго конечно, но что делать...
badblocks достаточно тупая вещь т.к. не показывает характер повреждений. В моём случае было несколько жестких перезагрузок как раз из-за проблем с разъемом питания.

isn ★★ ()

У меня ошибки UNC (Unrecoverable?) бывают на винчестерах с бэдами. Большинство лечится MHDD или Викторией с Erase Delays

Vshmuk ()
Ответ на: комментарий от Vshmuk

>>MHDD проблем не нашёл, дело в фс. поиграюсь намедни.

Значит, проблема в интерфейсе, но никак не в ФС. Они на разных уровнях

Не факт. Диск мог ремапнуть проблемный сектор. Media error не может быть из-за интерфейса или ФС (если это, конечно, не баг в драйвере).

anonymous ()
Ответ на: комментарий от anonymous

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   107   104   021    Pre-fail  Always       -       7625
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       870
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2176
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       862
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       85
193 Load_Cycle_Count        0x0032   198   198   000    Old_age   Always       -       7661
194 Temperature_Celsius     0x0022   099   098   000    Old_age   Always       -       48
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       4
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      2166         -

Вроде ничего не ремапнуто и видно, что свежие тесты проходят без выявления ошибок, смущает только Offline_Uncorrectable = 4, то есть, если не ошибаюсь, есть (или когда-то были) 4 сектора, доступ к которым замедлен. Попробую провести long-тест, но сейчас никаких проблем нет.

Кстати, ошибки начали проявляться после проблем с питанием и только когда пытался качать с торрентов то, что качалось в момент сбоя питания. И потом в закачке были обнаружены ошибки. Сейчас проблем вроде нет.

temporary ★★ ()

В общем, железячных проблем с винчестером не нашёл, даже значение Offline_Uncorrectable обнулилось. Однако ж недавно (по мере заполнения винчестера )вот что в логах обнаружил:

debian kernel: [ 2232.586784] REISERFS warning: reiserfs-5090 is_tree_node: node level 0 does not match to the expected one 1
debian kernel: [ 2232.586793] REISERFS error (device sda4): vs-5150 search_by_key: invalid format found in block 104594611. Fsck?
debian kernel: [ 2232.586799] REISERFS (device sda4): Remounting filesystem read-only
debian kernel: [ 2232.586809] REISERFS error (device sda4): vs-13070 reiserfs_read_locked_inode: i/o failure occurred trying to find stat data of [124157 124232 0x0 SD]
debian kernel: [ 2232.586889] REISERFS warning: is_tree_node: node level 0 does not match to the expected one 1
debian kernel: [ 2232.586895] REISERFS error (device sda4): vs-5150 search_by_key: invalid format found in block 104594611. Fsck?

fsck

Replaying journal: Trans replayed: mountid 761, transid 652646, desc 489, len 1, commit 491, next trans offset 474                             
Trans replayed: mountid 761, transid 652647, desc 492, len 1, commit Checking internal tree.. |block 104594611: The level of the node (0) is not correct, (1) expected
 the problem in the internal node occured (104594611), whole subtree is skipped
494, next trans offset 477        

Я так понимаю, что когда нжмд испытывал проблемы с питанием (а в это время на него производилась запись), он мусору набросал в незаполненное пространство, а по мере заполнения диска вылезают подобные ошибки, надо было с самого начала сделать

 fsck.reiserfs -S /dev/sda4 

--scan-whole-partition, -S This option causes --rebuild-tree to scan the whole partition but not only the used space on the partition

temporary ★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.