LINUX.ORG.RU

Ошибки чтения HDD, как найти, в чём проблема.


0

1

Имеется жёсткий диск WD Caviar Green WD20EARS, подключённый через PCI-контроллер STLab A-380. Заметил, что постоянно сыпятся ошибки чтения вида

[  900.962827] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[  900.968434] ata4.00: BMDMA2 stat 0x6d0009
[  900.973815] ata4.00: failed command: READ DMA
[  900.979229] ata4.00: cmd c8/00:00:90:b1:0c/00:00:00:00:00/ed tag 0 dma 131072 in
[  900.979232]          res 00/00:64:00:00:00/00:64:00:00:00/64 Emask 0x2 (HSM violation)
[  900.990235] ata4: hard resetting link
[  901.308068] ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  901.324614] ata4.00: configured for UDMA/33
[  901.324645] ata4: EH complete
и в этот момент происходит зависание на некоторое время. Сначала думал, что виновата парковка головок, но отключил её в idle3-tools, и проблема не исчезла.

SATA-кабель менять пробовал, на badblock'и проверял — вроде не находит (причём во время проверки ни разу ошибки чтения не было.

Вывод smartctl -a: http://tim474.dhis.org/stuff/smartctl

Как понять, что происходит? Если выяснится, что диск неисправен, то как это грамотно объяснить в сервисе? А то гарантия ещё есть.

Собственно, как понять, в чём проблема?

☆☆☆☆☆

Похоже на плохо вставленную в слот карту. Проверь также, что блок питания тянет — судя по всему у тебя там какое-то железо с помойки.

unanimous ★★★★★ ()
Ответ на: комментарий от unanimous

Вроде всё нормально вставлено. Блока питания по-идее должно хватить.

Сейчас пробую отформатировать раздел с поиском бэдблоков. Сейчас вроде при поиске эти ошибки происходят. Правда не знаю, бэдблоки обнаруживаются ли. Утилита ничего не выдаёт.

Ttt ☆☆☆☆☆ ()

UDMA_CRC_Error_Count - 5123

Кабель или контроллер - в помойку.

sergv ()

Кстати, в заголовке - WD20EARS.

В smartctl - WD10EARX

Правда - где?

STLab A-380 - на SiI3512 -> 1.5 Gbps

WD10EARX -> 6 Gbps.

Лучше сменить контроллер на хотя-бы SATA 3 Gbps.

Или искать свичи на диске для занижения впринудиловку частоты по шине. (Что, скорее всего, не поможет - EARX вообще очень плохо с многими дешевыми контроллерами дружат)

sergv ()
Ответ на: комментарий от Kompilainenn

Ну так эта их достопримечательность лечится с помощью их утилиты или сторонней idle3-tools. Я сделал, после этого количество парковок не растёт.

Ttt ☆☆☆☆☆ ()

MHDD проверял? У меня только он нормально UNC-блоки показывал и чинил

ms-dos32 ()
Ответ на: комментарий от sergv

Попробую проверить на другом компьютере, со встроенным SATA.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от sergv

А если попробовать понизить режим UDMA? Только как? hdparm -X udma0 /dev/sdb выдаёт

/dev/sdb:
 setting xfermode to 64 (UltraDMA mode0)
SG_IO: bad/missing sense data, sb[]:  70 00 05 00 00 00 00 0a 00 00 00 00 24 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

Слышал ещё про вариант, что через параметры загрузки можно, но не совсем понял, как именно.

Кстати, судя по dmesg, как раз система постепенно меняет с UDMA100 до UDMA33. Вот и подумал, может до 16 понизить.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от Ttt

А, вот, вроде сделал. Посмотрим, что будет.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от Ttt

Да не поможет это - повышать надо.

http://wdc.custhelp.com/app/answers/detail/search/1/a_id/1679#jumper

Задница в том, что EARX-у уже нельзя впринудиловку выставить SATA150, только SATA300 (jumper на 5-6). Есть подозрение (и на хоботе его мусолили активно), что EARX вообще ОЧЕНЬ криво работает на SATA150. На SATA300 - еще как-то...

sergv ()
Ответ на: комментарий от sergv

Всё равно проблема осталась. В основном такое выдаёт:

[  320.032038] ata4: lost interrupt (Status 0x6)
[  320.032065] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[  320.032295] ata4.00: failed command: READ DMA
[  320.032438] ata4.00: cmd c8/00:00:a8:10:06/00:00:00:00:00/e2 tag 0 dma 131072 in
[  320.032440]          res 40/00:00:00:00:00/00:00:00:00:00/40 Emask 0x4 (timeout)
[  320.032888] ata4.00: status: { DRDY }
[  320.033011] ata4: hard resetting link
[  320.352046] ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  320.360397] ata4.00: FORCE: xfer_mask set to udma0
[  320.368388] ata4.00: configured for UDMA/16
[  320.368401] ata4.00: device reported invalid CHS sector 0
[  320.368422] ata4: EH complete

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от sergv

Кстати, именно из-за кривой работы на SATA150 я, после исчезновения из продажи EARS, перешел на «заменители стриммера» от Seagate и Hitachi. Контроллер во внешнем боксе старый - что поделать?

sergv ()

Собственно, как понять, в чём проблема?

В контроллере.
Пробовал его с разными винтами. Работать не будет.

isn ★★ ()
Ответ на: комментарий от Ttt

Это исходя из того какие PCI слоты у вас свободные в системе.

Но никак не marvell, а жалко что не marvell вроде его нет в списке совместимых котроллеров на сайте производителя. Нужно искать в этом направлении.

bhfq ★★★★★ ()
Ответ на: комментарий от Ttt

хм, я имел ввиду стоны о внезапной кончине этих дисков, которая ничем не лечится

Kompilainenn ★★★★★ ()

Была такая же проблема на таком-же винте, тоже вставленном через контроллер. Сначала грешил на сам контроллер, но перестановка винта в другую машину без оного результатов не дала (впрочем стоит попробовать в любом случае). В итоге отнес винт по гарантии, там дали новый, который я сразу же продал и купил самсунг, работающий уже больше полугода в режиме 24/7. (WD сдох буквально за неделю)

Deleted ()
Ответ на: комментарий от bhfq

Хотя очень много контроллеров с чипом marvell, бывают случаи что диски от WD на них определяются как IDE - но не все.

PCIe x1 v.2.0 = 5гбит/c. 5 это не 6, но хватает. А вот если х1 v.1.0, то это будет 2,5гбит/c. Точно не хватит.

Если матплата не поддерживает PCIe v.2.0, то такие контроллеры окажутся медленнее чипсетных SATA2, эффект будет обратным.

bhfq ★★★★★ ()
Ответ на: комментарий от bhfq

Это как повезет, у некоторых и по 10 лет WD стоят и не сыпятся. Но я уже в их сторону после сабжевого случая не смотрю.

Видел где-то инфографику, соотношение проданных и сданных по гарантии винтов. Наименее проблемными оказались самсунги, WD и сигейты наравне, очень отставая

Deleted ()
Ответ на: комментарий от Ttt

Ну просто PCI это я не знаю куда вам идти, где вы найдете PCI отвечающий вашим 6 гбитам? Тут нужен PCIEx4 уже.

bhfq ★★★★★ ()
Ответ на: комментарий от bhfq

Ну а почему жёсткие диски делают обратно несовместимыми со старыми версиями SATA? Сговор с производителями материнских плат?

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от bhfq

Ну тогда нужно и новый процессор, и оперативную память покупать. А так вообще с возложенной нагрузкой данный компьютер справляется.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от Ttt

Почему же не совместимы, найдите информацию на сайте WD о своем HDD по этому PDF http://www.wdc.com/wdproducts/library/SpecSheet/ENG/2879-701229.pdf

Исходя из треда я так и не понял какая модель винтечестера у сабжа, на железке написаны полные цифры модели.

bhfq ★★★★★ ()
Ответ на: комментарий от bhfq

Не нужно там PCIE x4! Скорость самого диска - 110 MBps. А с этим справится PCI/33 (133 MBps).

Просто маркетинг - такой маркетинг.

sergv ()
Ответ на: комментарий от sergv

А у Caviar Black WD6401AALS-00L3B2 такой проблемы быть не должно? Просто имеется такой в распоряжении, но пока занят. Раз другого бесплатного выхода нет, могу поменять.

Ttt ☆☆☆☆☆ ()

[ 900.990235] ata4: hard resetting link

Буквально: диск перестал отвечать, потом снова стал доступен.

Варианты: 1) проблема с кабелем ( да, читал что ты уже менял кабель. Есть кабели с защёлками? ) 2) дохлый блок питания. Проверь напряжения через lm-sensors

Другие варианты не попадались.

router ★★★★★ ()
Ответ на: комментарий от sergv

На том диске тоже такая же ерунда. Ошибки такие:

[  508.119147] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[  508.124526] ata3.00: failed command: READ DMA
[  508.129857] ata3.00: cmd c8/00:08:38:03:00/00:00:00:00:00/e0 tag 0 dma 4096 in
[  508.129859]          res 40/00:00:0f:00:00/00:d1:d1:d1:d1/e0 Emask 0x4 (timeout)
[  508.140638] ata3.00: status: { DRDY }
[  508.146078] ata3: hard resetting link
[  508.464048] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  508.488080] ata3.00: both IDENTIFYs aborted, assuming NODEV
[  508.488087] ata3.00: revalidation failed (errno=-2)
[  513.464047] ata3: hard resetting link
[  513.784048] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[  513.808804] ata3.00: configured for UDMA/33
[  513.808838] ata3: EH complete

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от Ttt

Методом исключения остаются Б/П (типа 10 В вместо 12), сам контроллер и PCI-слот (можно просто вынуть контроллер, почистить контакты либо переткнуть в другой слот).

sergv ()
Ответ на: комментарий от sergv

1) На этом же компьютере, но подключив диск к другому БП пробовал — проблема осталась

2) Через тот же контроллер тот же диск подключил к другому компьютеру — проблемы нет, всё без ошибок работает.

Так что остаётся либо PCI, либо (не знаю, насколько такое возможно), что на сам контроллер питания не хватает.

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от Ttt

Есть еще совсем грустное предположение - маме конец. Чипсет, например DMA-контроллер, глючит. Самое простое - посмотреть целостность конденсаторов входного какскада. Может выкипели просто - тогда будут броски напряжения на процессор, чипсет и PCI пропускать.

sergv ()
Ответ на: комментарий от Ttt

Конечно возможен. Если диск или его контроллер к питанию менее требовательны.

Может быть и просто микротрещина на маме в районе слота, контакт отпал (пайка кривая)...

Вобщем, море вариантов. Обычно проще сменить - после ремонта все равно долго не проработает (опыт такой печальный).

sergv ()

у меня такая проблема уже лет 5-6. Я просто забил и пользуюсь. Если не наяривать на логи, то можно жить спокойно :)

dikiy ★★☆☆☆ ()
Ответ на: комментарий от Ttt

У меня не только в логах проявляется, а ещё при работе подвисает.

та же трабла. Вылечивалась периодическим передергиванием SATA кабеля.

dikiy ★★☆☆☆ ()
Ответ на: комментарий от sergv

Подключил к другому компьютеру той же временной эпохи, что и тот, на котором проблема. Там ещё интереснее. Виснет при инициализаиции диска контроллером (когда он, после сообщений материнской платы и до начала загрузки ОС выдаёт на экран информацию о себе, а далее должен написать о подключённых к нему дисках, но не выводит). Если же подключить диск потом, то опять же сыпет ошибками (но вроде другими, если нужно — попробую написать, какими именно).

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от sergv

Ну вот например, такие ошибки:

[ 1817.857739] ata3: hard resetting link
[ 1818.176090] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[ 1818.192145] ata3.00: both IDENTIFYs aborted, assuming NODEV
[ 1818.192153] ata3.00: revalidation failed (errno=-2)
[ 1819.255724] ata3: hard resetting link
[ 1819.572096] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[ 1819.588581] ata3.00: both IDENTIFYs aborted, assuming NODEV
[ 1819.588589] ata3.00: revalidation failed (errno=-2)
[ 1819.590942] ata3.00: disabled
[ 1819.591002] ata3: EH complete
[ 1821.097616] ata3: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
[ 1821.100185] ata3: SError: { PHYRdyChg }
[ 1821.102676] ata3: hard resetting link
[ 1821.824097] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[ 1821.840113] ata3.00: both IDENTIFYs aborted, assuming NODEV
[ 1821.840136] ata3: EH complete
[ 1822.100534] ata3: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
[ 1822.103241] ata3: SError: { PHYRdyChg }
[ 1822.105935] ata3: hard resetting link
[ 1822.828092] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[ 1822.844114] ata3.00: both IDENTIFYs aborted, assuming NODEV
[ 1822.844141] ata3: EH complete
[ 1828.037676] ata3: exception Emask 0x10 SAct 0x0 SErr 0x2410000 action 0xe frozen
[ 1828.040578] ata3: SError: { PHYRdyChg Handshk UnrecFIS }
[ 1828.043466] ata3: hard resetting link
[ 1828.764102] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
[ 1828.780182] ata3.00: both IDENTIFYs aborted, assuming NODEV
[ 1828.780242] ata3: exception Emask 0x10 SAct 0x0 SErr 0x24d0000 action 0xe frozen t4
[ 1828.783197] ata3: SError: { PHYRdyChg CommWake 10B8B Handshk UnrecFIS }
[ 1828.786293] ata3: hard resetting link
[ 1829.508097] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)

Ttt ☆☆☆☆☆ ()
Ответ на: комментарий от router

Не удаётся. lm-sensors сенсоры не находит. ipmitool как юзать — не совсем понял, но вроде тоже не находит. Например, писал: Could not open device at /dev/ipmi0 or /dev/ipmi/0 or /dev/ipmidev/0: No such file or directory.

Материнская плата — Gigabyte GA-8S648 на SiS648.

Ttt ☆☆☆☆☆ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.