WD30EFRX ошибки smart

1

2

привет форумчане прошу помощи

Есть Xenserver к которому были недавно подключены 2 диска WD30EFRX диски новые и все смарт показатели были проверены перед началом работы. Ошибок не было. Работа под нагрузкой тоже была без ошибок. Далее диски были проброшены ка блочное устройство в виртуалку где их разбили на части и создали lvm (lvcreate -i3 -I512K -n lv02 -l100%free vg02). В процессе копирования информации оба диска получили ошибки по смарт.

=== START OF INFORMATION SECTION === Model Family: Western Digital Red (AF) Device Model: WDC WD30EFRX-68EUZN0 Serial Number: WD-WCC4N6ZTPU8V LU WWN Device Id: 5 0014ee 262d24f3a Firmware Version: 82.00A82 User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-2 (minor revision not indicated) SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Tue Jul 3 11:55:51 2018 EEST SMART support is: Available - device has SMART capability. SMART support is: Enabled

=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED

General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (38760) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 389) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x703d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported.

SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0027 180 179 021 Pre-fail Always - 6000 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 9 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 41 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 9 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 2 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 36 194 Temperature_Celsius 0x0022 117 110 000 Old_age Always - 33 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

SMART Error Log Version: 1 Warning: ATA error count 36172 inconsistent with error log pointer 4

ATA Error Count: 36172 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 36172 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Error 36171 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Error 36170 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Error 36169 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 08 00 e0 Error: UNC 8 sectors at LBA = 0x00000800 = 2048

Error 36168 occurred at disk power-on lifetime: 35 hours (1 days + 11 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 41 - # 2 Extended offline Aborted by host 90% 41 - # 3 Short offline Completed without error 00% 40 -

SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

Диски были выведены из виртуалки вся информация на них была снесена. Пытаюсь понять где я накосячил с разбивкой диска и можно ли убрать эти ошибки?

Ссылка

← Перепрошить в OpenWrt роутер

Подключение геймпада 8bitdo по bluetooth →

У тебя написано что они умерли. Не Бери WD в следующий раз. Ошибки служат напоминанием о том что всё плохо.

Aborted by host

вот это зря

anonymous
(03.07.18 12:17:00 MSK)

Ответ на: комментарий от anonymous 03.07.18 12:17:00 MSK

как умерли? я их два дня назад только купил

deimos
(03.07.18 12:20:36 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 12:20:36 MSK

На горячую включали/выключали? Если больше появляться не будет, можно забить. Ну и -t long для успокоения прогнать (только не надо ему мешать).

anonymous
(03.07.18 12:29:27 MSK)

Ответ на: комментарий от anonymous 03.07.18 12:29:27 MSK

когда на них шла запись был глюк с одним из кабелей Скорость по одному из винтов сильно просядала плюс я сделал lvcreate -i3 -I512K -n lv02 -l100%free vg02 а надо было -I4096K под размер сектора диска

ошибка сначала выпала на этом диске, потом и на втором появилась Так же был период когда просто один из дисков отваливался по не понятной причине :( Думаю питания не хватило или все-таки кабель гавно

deimos
(03.07.18 12:32:44 MSK) автор топика

Ответ на: комментарий от anonymous 03.07.18 12:29:27 MSK

Может быть с питанием проблемы ещё. Насколько оно хорошее там?

anonymous
(03.07.18 12:33:35 MSK)

Ответ на: комментарий от deimos 03.07.18 12:32:44 MSK

Ну оба варианта могли послужить причиной подобного. Это не похоже на программную проблему.

anonymous
(03.07.18 12:36:00 MSK)

Ответ на: комментарий от anonymous 03.07.18 12:33:35 MSK

Zalman 400W 6 винтов мать проц память больше ни чего я подсчитывал должно хватать блока питания

deimos
(03.07.18 12:36:43 MSK) автор топика

Ответ на: комментарий от anonymous 03.07.18 12:36:00 MSK

т.е. это не сбой винта это сбой моих кривых рук пофиксить это возможно ?

На некоторых форумах говорят что -t long может убрать эти ошибки но чет я не верю. Кабеля новые купил вечером сменю на всякий случай

deimos
(03.07.18 12:38:11 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 12:38:11 MSK

На некоторых форумах говорят что -t long может убрать эти ошибки но чет я не верю

Ошибки из логов, естественно, убрать нельзя и не нужно, это дело прошлое.

-t long не способен что-то убрать, поскольку это тест чтения.

Прогони badblocks -w и увидишь косяки и со шлейфами и (некоторые) с питанием и поверхность проверишь.

anonymous
(03.07.18 12:51:18 MSK)

и все смарт показатели были проверены перед началом работы

почему тогда все три теста были на 40+ часу, когда он уже померал? может ты не те диски тестил?
или имеешь ввиду, что просто посмотрел значения?

system-root ★★★★★
(03.07.18 12:52:51 MSK)

Ответ на: комментарий от deimos 03.07.18 12:36:43 MSK

Нам нужны специалисты по дешёвым бпшкам из того топика (особенно в свете проблем Залмана). Есть ещё вариант бага в чипсете материнской платы, очень популярная тема была.

anonymous
(03.07.18 12:54:47 MSK)

Ссылка

Ответ на: комментарий от system-root 03.07.18 12:52:51 MSK

Показатели смарт проверены перед началом работы. 40 час это сегодня

deimos
(03.07.18 13:26:55 MSK) автор топика

Ответ на: комментарий от anonymous 03.07.18 12:51:18 MSK

Это логи в самом диске. На другой системе они будут тоже?

deimos
(03.07.18 13:28:11 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 13:28:11 MSK

Да, это логи смарта, который в диске.

legolegs ★★★★★
(03.07.18 14:04:48 MSK)

Ссылка

Ответ на: комментарий от deimos 03.07.18 13:26:55 MSK

смотри как оно бывает

~# smatctl -a /dev/disk/by-id/ata-ST2000DM006-2DM164_Z4ZB4913
...
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       40
...
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%         4         -

тест кончился на четвёртом часу работы диска, а всего он включён 40 часов.

system-root ★★★★★
(03.07.18 14:10:10 MSK)
Последнее исправление: system-root 03.07.18 14:10:20 MSK (всего исправлений: 1)

Ссылка

Ошибки никак не связаны с разбивкой, это UNC (uncorrectable read error), диску с поверхности не прочесть данные. Если дело не в самом диске, то в БП или шлейфе питания. Если бы беда была со шлейфом данных, то ошибки были бы ICRC.

olegkrutov ★★
(03.07.18 14:10:12 MSK)

Ответ на: комментарий от olegkrutov 03.07.18 14:10:12 MSK

я каким-то образом потерял два винта? 4 других без ошибок

ими можно пользоваться? или уже рыдать (купил по скидке в Европе, вернуться нет возможности чеки сдал по GlobalBlue) все эти показатели Vendor Specific SMART Attributes with Thresholds: в норме. Плюс нету посторонних звуков диска

забыл добавить gpt я поставил в винде разбивал диски fdisk

тут могло быть проблемой?

deimos
(03.07.18 14:45:34 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 14:45:34 MSK

Это ошибки второго винта, они идентичны :( Оба винта новые работали как видите не долго

=== START OF INFORMATION SECTION === Model Family: Western Digital Red (AF) Device Model: WDC WD30EFRX-68EUZN0 Serial Number: WD-WCC4N1UH29C5 LU WWN Device Id: 5 0014ee 262d20569 Firmware Version: 82.00A82 User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-2 (minor revision not indicated) SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Tue Jul 3 14:59:08 2018 EEST SMART support is: Available - device has SMART capability. SMART support is: Enabled

=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED

General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (40380) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 405) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x703d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported.

SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0027 178 178 021 Pre-fail Always - 6058 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 9 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 45 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 9 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 0 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 41 194 Temperature_Celsius 0x0022 115 109 000 Old_age Always - 35 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

Может это какая-то специфика работы этих NAS накопителей?

deimos
(03.07.18 15:02:45 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 15:02:45 MSK

Error 11 occurred at disk power-on lifetime: 37 hours (1 days + 13 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Error 10 occurred at disk power-on lifetime: 37 hours (1 days + 13 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Error 9 occurred at disk power-on lifetime: 37 hours (1 days + 13 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Error 8 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:19:19.261 READ DMA ef 10 02 00 00 00 a0 00 09:19:19.260 SET FEATURES [Enable SATA feature] ec 00 00 00 00 00 a0 00 09:19:19.260 IDENTIFY DEVICE

Error 7 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t]

deimos
(03.07.18 15:03:27 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 15:03:27 MSK

Твоюж мать

Нашел еще одного счастливчика с новым винтом :( симптомы один в один

http://www.tomshardware.co.uk/answers/id-2146084/wdc-wd30efrx-68euzn0-ata-err...

deimos
(03.07.18 15:17:46 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 15:17:46 MSK

Сегодня утащу эти диски в другую машину и там проверю, с другими кабелями мамкой и блоком питания завтра отпишусь

deimos
(03.07.18 15:29:23 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 15:29:23 MSK

До завтра badblocks -w не успеет. Не торопись, проверь про-нормальному.

legolegs ★★★★★
(03.07.18 16:29:44 MSK)

Ответ на: комментарий от legolegs 03.07.18 16:29:44 MSK

я его не начинал начну на другой машине в которой я точно уверен

deimos
(03.07.18 16:42:43 MSK) автор топика

Ответ на: комментарий от deimos 03.07.18 16:42:43 MSK

badblocks прогонять до смарта если что, желательно чтобы не перегрелись в процессе (см. в спеках рабочие температуры). Это займёт время, много времени.

anonymous
(03.07.18 16:53:46 MSK)

Ссылка

Ответ на: комментарий от deimos 03.07.18 14:45:34 MSK

по-моему, всё в порядке. Вообще, есть любители заглядывать в SMART и потом устраивать панику - а такие ли там атрибуты. Малополезное занятие. Но в данном примере они такие. Ещё приведена выдержка из какого-то лог файла с сообщением об ошибках ATA. Ну и что. Они случаются и при нормальной работе исправного диска. Хотя если их число быстро нарастает, это может говорить о плохом SATA кабеле.

Partisan ★★★★★
(03.07.18 21:51:28 MSK)

Ответ на: комментарий от Partisan 03.07.18 21:51:28 MSK

было бы интересно, если ошибка UNC 8 из за плохого кабеля, но вероятность, как известно, «крайне мала».

system-root ★★★★★
(03.07.18 21:56:07 MSK)

Ссылка

Ответ на: комментарий от Partisan 03.07.18 21:51:28 MSK

случаются и при нормальной работе исправного диска

мм как насчёт нет

anonymous
(03.07.18 22:18:51 MSK)

Ссылка

Ответ на: комментарий от Partisan 03.07.18 21:51:28 MSK

Прошу прощение что я Вас всех потревожил, но реальность такова. 1. У меня кривые руки и мало знаний. Первый запуск этих винтов был в Винде. И Там же я проводил проверку скорости. Винда зарезервировала 128 мегабайт под свои нужды. Не знаю почему но их не видел fdisk и gdisk. Gparted увидел и снес нафиг эту ересь. Не знаю связано ли это, но начало диска как раз было занято виндой. 2. Были проблемы с питанием + кабель. Два винта сидели на одной линии питания конектор IDE + переходник на SATA. И скорее всего это явилось причиной данной записи в логи. Винтам тупо не хватало энергии. 3. Все винты проверил на другой машине. Все тесты хорошие. Единственное логи не ушли и походу убрать их ни как. Запись логов была как в винт так и в логи операционки. Наверное это такая фича. Т.к. винт для серверов то они в них записывают все сбои. Дабы новый покупатель знает на что идет. (Это мое предположение). Т.е. пробег как на машине + ошибки не изменишь.

Спасибо всем кто откликнулся. Первый раз с таким столкнулся. Вот и запаниковал :)

deimos
(04.07.18 07:34:16 MSK) автор топика

Ответ на: комментарий от deimos 04.07.18 07:34:16 MSK

Два винта сидели на одной линии питания конектор IDE + переходник на SATA

Это была очень плохая идея. У меня так диск вообще сдох когда-то. Одиночные переходники тоже лучше не использовать, у них бывают похожие проблемы.

Наверное это такая фича. Т.к. винт для серверов то они в них записывают все сбои.

Все диски с поддержкой SMART хранят записи об ошибках внутри.

anonymous
(04.07.18 07:48:12 MSK)

Ссылка

Error 36172 occurred at disk power-on lifetime

С винтом всё в порядке. Эти ошибки ничего не значат. Можно с ними жить.

// b.

anonymous
(04.07.18 12:14:06 MSK)

Ссылка

Ответ на: комментарий от Partisan 03.07.18 21:51:28 MSK

Ошибки UNC у исправных дисков на нормальном питании происходить не должны.

olegkrutov ★★
(04.07.18 13:03:34 MSK)

Ссылка

Error 36169 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours)
  40 51 08 00 08 00 e0  Error: UNC 8 sectors at LBA = 0x00000800 = 2048
...
Error 36168 occurred at disk power-on lifetime: 35 hours (1 days + 11 hours)
  40 51 08 00 00 00 e0  Error: UNC 8 sectors at LBA = 0x00000000 = 0

Итого, на 35-36 час жизни у диска было ~35к ошибок чтения. Но что же мы видим вначале лога?

  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       41

На 41-й час жизни ошибок нет. ИМХО, кто-то здесь врёт. Я бы попробовал поменять диск по гарантии.

anonymous
(04.07.18 13:24:03 MSK)