LINUX.ORG.RU

HDD дохнет?

 


0

1

Подхожу к компу, а там хомяк в RO. Ну и /var за компанию тоже.

В логах такое:

мар 10 13:48:26 aquila systemd-logind[898]: Lid closed.
мар 10 13:48:32 aquila kernel: ata3.00: exception Emask 0x10 SAct 0x1000 SErr 0x4040000 action 0xe frozen
мар 10 13:48:35 aquila kernel: ata3.00: irq_stat 0x00000040, connection status changed
мар 10 13:48:35 aquila kernel: ata3: SError: { CommWake DevExch }
мар 10 13:48:35 aquila kernel: ata3.00: failed command: WRITE FPDMA QUEUED
мар 10 13:48:35 aquila kernel: ata3.00: cmd 61/18:60:30:31:11/00:00:1b:00:00/40 tag 12 ncq dma 12288 out
                                           res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x10 (ATA bus error)
мар 10 13:48:35 aquila kernel: ata3.00: status: { DRDY }
мар 10 13:48:35 aquila kernel: ata3: hard resetting link
мар 10 13:48:35 aquila kernel: ata3: SATA link down (SStatus 1 SControl 300)
мар 10 13:48:35 aquila kernel: ata3: hard resetting link
мар 10 13:48:35 aquila kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мар 10 13:48:35 aquila kernel: ata3.00: configured for UDMA/133
мар 10 13:48:35 aquila kernel: ata3: EH complete
мар 10 13:48:41 aquila kernel: ata3.00: exception Emask 0x10 SAct 0x40000 SErr 0x4040000 action 0xe frozen
мар 10 13:48:41 aquila kernel: ata3.00: irq_stat 0x00000040, connection status changed
мар 10 13:48:41 aquila kernel: ata3: SError: { CommWake DevExch }
мар 10 13:48:41 aquila kernel: ata3.00: failed command: WRITE FPDMA QUEUED
мар 10 13:48:41 aquila kernel: ata3.00: cmd 61/88:90:00:ad:d2/00:00:5f:00:00/40 tag 18 ncq dma 69632 out
                                           res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x10 (ATA bus error)
мар 10 13:48:41 aquila kernel: ata3.00: status: { DRDY }
мар 10 13:48:41 aquila kernel: ata3: hard resetting link
мар 10 13:48:42 aquila kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мар 10 13:48:42 aquila kernel: ata3.00: configured for UDMA/133
мар 10 13:48:42 aquila kernel: ata3: EH complete
.
.
.
.
.
.
мар 10 13:54:17 aquila kernel: ata3.00: exception Emask 0x10 SAct 0x100000 SErr 0x450100 action 0x6 frozen
мар 10 13:54:17 aquila kernel: ata3.00: irq_stat 0x08000000, interface fatal error
мар 10 13:54:17 aquila kernel: ata3: SError: { UnrecovData PHYRdyChg CommWake Handshk }
мар 10 13:54:17 aquila kernel: ata3.00: failed command: WRITE FPDMA QUEUED
мар 10 13:54:17 aquila kernel: ata3.00: cmd 61/50:a0:58:f2:56/00:00:43:00:00/40 tag 20 ncq dma 40960 out
                                           res 50/00:50:58:f2:56/00:00:43:00:00/40 Emask 0x10 (ATA bus error)
мар 10 13:54:17 aquila kernel: ata3.00: status: { DRDY }
мар 10 13:54:17 aquila kernel: ata3: hard resetting link
мар 10 13:54:17 aquila kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мар 10 13:54:17 aquila kernel: ata3.00: configured for UDMA/133
мар 10 13:54:17 aquila kernel: ata3: EH complete
мар 10 13:54:27 aquila kernel: ata3: limiting SATA link speed to 1.5 Gbps
мар 10 13:54:27 aquila kernel: ata3.00: exception Emask 0x10 SAct 0x20 SErr 0x450100 action 0x6 frozen
мар 10 13:54:27 aquila kernel: ata3.00: irq_stat 0x08000000, interface fatal error
мар 10 13:54:27 aquila kernel: ata3: SError: { UnrecovData PHYRdyChg CommWake Handshk }
мар 10 13:54:27 aquila kernel: ata3.00: failed command: WRITE FPDMA QUEUED
мар 10 13:54:27 aquila kernel: ata3.00: cmd 61/58:28:30:f3:56/00:00:43:00:00/40 tag 5 ncq dma 45056 out
                                           res 50/00:58:30:f3:56/00:00:43:00:00/40 Emask 0x10 (ATA bus error)
мар 10 13:54:27 aquila kernel: ata3.00: status: { DRDY }
мар 10 13:54:27 aquila kernel: ata3: hard resetting link
мар 10 13:54:27 aquila kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
мар 10 13:54:27 aquila kernel: ata3.00: configured for UDMA/133
мар 10 13:54:27 aquila kernel: ata3: EH complete

Потом еще пара страниц не относящихся к делу сообщений, и дальше журнала нет по понятным причинам.

SMART:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.19-1-lts] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     HGST Travelstar 7K1000
Device Model:     HGST HTS721010A9E630
Serial Number:    JR1004BNJKM6VM
LU WWN Device Id: 5 000cca 8e6e43178
Firmware Version: JB0OA3U0
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Mar 10 19:42:30 2021 +07
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(   45) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 170) minutes.
SCT capabilities: 	       (0x003d)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   062    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   040    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0007   119   119   033    Pre-fail  Always       -       2
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       1122
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   040    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   086   086   000    Old_age   Always       -       6553
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       1115
191 G-Sense_Error_Rate      0x000a   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       36
193 Load_Cycle_Count        0x0012   078   078   000    Old_age   Always       -       223725
194 Temperature_Celsius     0x0002   157   157   000    Old_age   Always       -       38 (Min/Max 11/51)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       39
223 Load_Retry_Count        0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 39 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 39 occurred at disk power-on lifetime: 6547 hours (272 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 07 90 cc 0d  Error: ICRC, ABRT at LBA = 0x0dcc9007 = 231510023

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 08 50 00 90 cc 40 00      03:50:09.783  WRITE FPDMA QUEUED
  ef 10 03 00 00 00 a0 00      03:50:09.783  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 00      03:50:09.782  IDENTIFY DEVICE
  ef 03 42 00 00 00 a0 00      03:50:09.782  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      03:50:09.781  IDENTIFY DEVICE

Error 38 occurred at disk power-on lifetime: 6547 hours (272 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 07 90 cc 0d  Error: ICRC, ABRT at LBA = 0x0dcc9007 = 231510023

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 08 68 00 90 cc 40 00      03:50:09.413  WRITE FPDMA QUEUED
  ef 10 03 00 00 00 a0 00      03:50:09.413  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 00      03:50:09.412  IDENTIFY DEVICE
  ef 03 42 00 00 00 a0 00      03:50:09.412  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      03:50:09.411  IDENTIFY DEVICE

Error 37 occurred at disk power-on lifetime: 6547 hours (272 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 07 90 cc 0d  Error: ICRC, ABRT at LBA = 0x0dcc9007 = 231510023

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 08 28 00 90 cc 40 00      03:50:09.033  WRITE FPDMA QUEUED
  ef 10 03 00 00 00 a0 00      03:50:09.033  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 00      03:50:09.032  IDENTIFY DEVICE
  ef 03 42 00 00 00 a0 00      03:50:09.032  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      03:50:09.031  IDENTIFY DEVICE

Error 36 occurred at disk power-on lifetime: 6547 hours (272 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 07 90 cc 0d  Error: ICRC, ABRT at LBA = 0x0dcc9007 = 231510023

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 08 18 00 90 cc 40 00      03:50:08.663  WRITE FPDMA QUEUED
  ef 10 03 00 00 00 a0 00      03:50:08.663  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 00      03:50:08.662  IDENTIFY DEVICE
  ef 03 42 00 00 00 a0 00      03:50:08.662  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 00      03:50:08.661  IDENTIFY DEVICE

Error 35 occurred at disk power-on lifetime: 6547 hours (272 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 00 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ec 00 00 00 00 00 a0 00      03:50:03.301  IDENTIFY DEVICE
  61 08 01 07 90 cc 0d ff      03:50:02.961  WRITE FPDMA QUEUED
  61 08 28 00 90 cc 40 00      03:50:02.923  WRITE FPDMA QUEUED
  ef 10 03 00 00 00 a0 00      03:50:02.923  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 00      03:50:02.922  IDENTIFY DEVICE

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Interrupted (host reset)      80%      4412         -
# 2  Short offline       Completed without error       00%      3199         -
# 3  Extended offline    Completed without error       00%        24         -
# 4  Short offline       Completed without error       00%         4         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Какой вердикт? Срочно бэкапиться?

P.S.

После перезагрузки стали падать вкладки в лисе. Вроде к HDD не относится, хотя хз…

★★

Последнее исправление: wandrien (всего исправлений: 1)

Ответ на: комментарий от anonymous

3 месяца назад менял HDD от Хитачи. Он проработал 8 лет без каких-либо сбоев и умер в один день без объявления войны.

Этому не больше полутора лет, если не ошибаюсь.

wandrien ★★
() автор топика

5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0

Обычно показывает, когда он уже умирает. Странно.

9 Power_On_Hours 0x0012 086 086 000 Old_age Always - 6553

Как мало, вы его не роняли?

193 Load_Cycle_Count 0x0012 078 078 000 Old_age Always - 223725

ЕМНИП, для терабайтника не много.

И 51 градус — многовато.

fernandos ★★★
()
Ответ на: комментарий от greenman

Схожие симптомы вылечились заменой электролитов на МБ и в БП.

Вполне возможно, кстати. Но это ноут. Тут проще сначала купить новый, а потом уж разбираться, можно ли привести в порядок этот.

wandrien ★★
() автор топика
Ответ на: комментарий от fernandos

Load_Cycle_Count

Так и не отключил автопарковку бошек, вот они и нащелкали такие числа.

Как мало, вы его не роняли?

Насколько мне известно, нет. Да и в датчике удара чисто. В машине ездил в багажнике, при этом на нём сверху лежала куча барахла – такое случалось периодически.

wandrien ★★
() автор топика
Ответ на: комментарий от wandrien
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       39

скорее всего, переходник плохой. Понаблюдай за этим счётчиком.

targitaj ★★★★★
()

Два чая джентльменам, высказавшим идею про кабель/переходник. Сто пудов оно. ICRC ошибки явно к sata каналу передачи данных относятся.

olegkrutov ★★
()

А, вот ещё что. Чтобы не иметь портянку лишнего вывода, используй ключи

smartctl -i -A /dev/disk
targitaj ★★★★★
()
Последнее исправление: targitaj (всего исправлений: 1)

Кабель пошевели… шо вы с этим смартом носитесь, как с писаной торбой?

Если смарт тебе сообщит через uefi или через ОС, что беда… значит беда. У меня даже 11 летней давности винт на 2.5" проорался.

Проверка показала бэды в начале диска.

anonymous
()
Ответ на: комментарий от anonymous

Проверял Викторией 535, но в Шин10 нужно на диске отключить MBR, там у ней где-то кнопочка есть специальная, в той Виктории.

anonymous
()
Ответ на: комментарий от wandrien

Спиртом протри. Отвалился и окислился.

anonymous
()

Контакты, инфа 99.99% :)

anonymous
()
Ответ на: комментарий от fernandos

5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0

Обычно показывает, когда он уже умирает. Странно.

Показывает что?

intelfx ★★★★★
()
Ответ на: комментарий от intelfx

А где я сказал, что я их вижу?

ТС написал, что у него симптомы смерти харда, я посмотрел переназначенные сектора — 0, ну думаю, странно, да и часов работает немного.

fernandos ★★★
()
Ответ на: комментарий от fernandos

Значит, я не так понял твоё «Обычно показывает, когда он уже умирает. Странно».

intelfx ★★★★★
()
Ответ на: комментарий от piwww

fdisk – для разметки диска, может ты имеешь ввиду chkdsk?

cocucka ★★★★☆
()
Ответ на: комментарий от fernandos

51 градус — многовато

нет, это нормальная температура. Особенно если диск находится в корпусе рядом с другим диском.

В стоечных 2U серверах это вообще низкая температура, бывает и выше

reprimand ★★★★★
()
Ответ на: комментарий от reprimand

60 — максимальная, отнимите 10, всё, что выше — многовато.

fernandos ★★★
()
Ответ на: комментарий от wandrien

Бессмысленные тормоза тех же браузеров. Ну и вообще как-то некузяво уже использовать шумную ржавчину в десктопах/ноутбуках.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.