LINUX.ORG.RU

[Решено] Помогите с расшифровкой SMART

 , ,


0

2

UPD: винт сдох совсем, щелкает :(

В последнее время при загрузки зачастую валиться система в initramfs, после чего просит fsck вручную. Что-то находит и восстанавливает, и так до следующего раза. При этом в целом веду себя адекватно, никаких горячих выключений и прочего. Снял вот показания, скажите — пациент ещё жив или нет? Бекапы на 2 внешних винта уже сняты, вопрос как долго можно ещё этот эксплуатировать?

root@hp15debian9:~# smartctl -s on -a /dev/sda
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-8-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Toshiba 2.5" HDD MQ01ABD...
Device Model:     TOSHIBA MQ01ABD100
Serial Number:    361CW0OST
LU WWN Device Id: 5 000039 6e4a0007f
Firmware Version: AX1R2C
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Nov 29 00:57:57 2018 +03
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x85)	Offline data collection activity
					was aborted by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  120) seconds.
Offline data collection
capabilities: 			 (0x51) SMART execute Offline immediate.
					No Auto Offline data collection support.
					Suspend Offline collection upon new
					command.
					No Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 197) minutes.
SCT capabilities: 	       (0x003d)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   050    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0027   100   100   050    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0023   100   100   002    Pre-fail  Always       -       1267
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       2820
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       8
  7 Seek_Error_Rate         0x002f   100   100   050    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   063   063   000    Old_age   Always       -       15064
 10 Spin_Retry_Count        0x0033   156   100   030    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       1649
183 Runtime_Bad_Block       0x0032   100   100   001    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
185 Unknown_Attribute       0x0032   100   100   001    Old_age   Always       -       65535
187 Reported_Uncorrect      0x0032   056   056   000    Old_age   Always       -       44
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   001    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   063   054   040    Old_age   Always       -       37 (Min/Max 37/37)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       2259
192 Power-Off_Retract_Count 0x0022   100   100   000    Old_age   Always       -       3866683
193 Load_Cycle_Count        0x0032   086   086   000    Old_age   Always       -       142682
194 Temperature_Celsius     0x0022   063   054   040    Old_age   Always       -       37 (Min/Max 37/37)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       1832
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 44 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 44 occurred at disk power-on lifetime: 15064 hours (627 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 41 90 b8 36 cd 40  Error: WP at LBA = 0x00cd36b8 = 13448888

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 08 b0 70 50 c4 40 00      00:05:41.260  WRITE FPDMA QUEUED
  61 08 a8 00 10 80 40 00      00:05:41.260  WRITE FPDMA QUEUED
  60 08 a0 b8 35 01 40 00      00:05:39.213  READ FPDMA QUEUED
  60 08 98 78 34 01 40 00      00:05:39.212  READ FPDMA QUEUED
  60 08 90 b8 36 cd 40 00      00:05:39.212  READ FPDMA QUEUED

Error 43 occurred at disk power-on lifetime: 15064 hours (627 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 41 28 b8 36 cd 40  Error: WP at LBA = 0x00cd36b8 = 13448888

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 40 30 28 6c 85 40 00      00:05:39.028  WRITE FPDMA QUEUED
  60 08 28 b8 36 cd 40 00      00:05:35.307  READ FPDMA QUEUED
  60 08 20 b0 36 cd 40 00      00:05:35.307  READ FPDMA QUEUED
  60 08 18 a8 36 cd 40 00      00:05:35.307  READ FPDMA QUEUED
  60 08 10 a0 36 cd 40 00      00:05:35.307  READ FPDMA QUEUED

Error 42 occurred at disk power-on lifetime: 15064 hours (627 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 41 68 b8 36 cd 40  Error: UNC at LBA = 0x00cd36b8 = 13448888

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 78 38 4e d3 40 00      00:05:35.150  READ FPDMA QUEUED
  60 00 70 00 37 cd 40 00      00:05:31.404  READ FPDMA QUEUED
  60 00 68 00 36 cd 40 00      00:05:31.401  READ FPDMA QUEUED
  60 08 60 f8 4f 0a 40 00      00:05:31.366  READ FPDMA QUEUED
  60 08 58 58 5b cd 40 00      00:05:31.366  READ FPDMA QUEUED

Error 41 occurred at disk power-on lifetime: 15064 hours (627 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 41 38 78 b8 05 40  Error: UNC at LBA = 0x0005b878 = 374904

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 38 78 b8 05 40 00      12:01:40.089  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00      12:01:40.086  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 00      12:01:40.085  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00      12:01:40.085  SET FEATURES [Set transfer mode]
  ef 10 02 00 00 00 a0 00      12:01:40.085  SET FEATURES [Enable SATA feature]

Error 40 occurred at disk power-on lifetime: 15064 hours (627 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 41 98 78 b8 05 40  Error: UNC at LBA = 0x0005b878 = 374904

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 98 78 b8 05 40 00      12:01:36.243  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00      12:01:36.242  SET FEATURES [Enable SATA feature]
  ec 00 00 00 00 00 a0 00      12:01:36.241  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00      12:01:36.241  SET FEATURES [Set transfer mode]
  ef 10 02 00 00 00 a0 00      12:01:36.241  SET FEATURES [Enable SATA feature]

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Часто диск начинает терять данные, хотя в СМАРТе еще все ок. Если 1. Кернел стабильный 2. Неэзотическая ФС 3. С контактами на шлейфах все ок,

-- то HDD в помойку. Это расходник, который надо менять, иначе он будет делать вам голову.

Current_Pending_Sector, Reallocated_Sector_Ct>0 — худо.

anonymous ()
Ответ на: комментарий от anonymous

Debian 9, kernel 4.9, ext4 — правда с использованием LVM недавно, но началось до того. Контакты проверить несколько трудно — ноут из современных не очень разборных, но видимо придется.

Vsevolod-linuxoid ★★★★★ ()
Ответ на: комментарий от anonymous

Заметил одну странность: тут сказано

SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
, а в характеристиках SATA 3Gb/s сказано.

И ещё — а можно скажем разметить его в один раздел ext4, а потом пройтись глобально на поиск битых секторов?

Vsevolod-linuxoid ★★★★★ ()
Ответ на: комментарий от Vsevolod-linuxoid

Никакой экзотики, ядерных проблем быть не должно.

Диск умирает. Может, окончательно рассыпаться завтра, может через 2 года, а может, каждую неделю будет портить вам данные (худший вариант, имхо). Это не технический вопрос, вам решать.

anonymous ()
Ответ на: комментарий от anonymous

Начал неделю назад, уже 4 раза. Сегодня — дважды, хоть и на разных разделах :-(

Vsevolod-linuxoid ★★★★★ ()
Ответ на: комментарий от Vsevolod-linuxoid

6Gbps:

https://toshiba.semicon-storage.com/us/product/storage-products/client-hdd/mq...

Можно и не размечая битые секторы поискать.=) Можно btrfs/zfs поставить — btrfs/zfs scrub будет вам автоматически о _новых_ ошибках рапортовать.) Но это по разряду утех и извращений. Железо дохлое.

anonymous ()

5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 8

Меняй

вопрос как долго можно ещё этот эксплуатировать?

Пока не развалится в один прекрасный день. Это может быть как и завтра, так и через месяц.

bsdfun ★★★★★ ()
Последнее исправление: bsdfun (всего исправлений: 1)

197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 1832

Почти две тысячи нечитаемых секторов => диск на замену.

legolegs ★★★★★ ()

1800+ пендингов, в логах - ошибки чтения разных секторов...

как по мне - винт дохнет и пора делать бекапы как минимум.

NiTr0 ★★★★★ ()

bsdfun, legolegs, NiTr0 — а что если с внешней флешки загрузиться и

dd if=/dev/zero of=/dev/sda bs=4M
 — это вроде как стимулирует контроллер на ремап секторов? Бекапы уже давно сняты.

Vsevolod-linuxoid ★★★★★ ()
Ответ на: комментарий от Vsevolod-linuxoid

На эксперименты, развалов в городе не искал, да и на вряд ли найду

Ramil ★★★★ ()
Ответ на: комментарий от Vsevolod-linuxoid

1. эту команду выполняет фирмварь диска, она не только затрет весь диск, но и уберет все пендины в ремап если они реально не писабельны. и все это без прогона терабайта нулей по сата шине.

2. dd может вылетать по ошибке записи, даже в случае указания ему игнора этой ошибки (у меня такое было).

Minona ★★ ()
Ответ на: комментарий от Minona

Может дело в крайней специфике разметки? Она реально необычная:

vsevolod@hp15debian9:~$ lsblk
NAME                    MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda                       8:0    0 931,5G  0 disk 
├─sda1                    8:1    0     2G  0 part 
├─sda2                    8:2    0     2G  0 part /boot
└─sda3                    8:3    0   920G  0 part 
  ├─vg0-lv_rhel8_root   254:0    0    32G  0 lvm  
  ├─vg0-lv_rhel8_home   254:1    0    32G  0 lvm  
  ├─vg0-lv_rhel8_swap   254:2    0     8G  0 lvm  
  ├─vg0-lv_debian9_root 254:3    0    24G  0 lvm  /
  ├─vg0-lv_debian9_swap 254:4    0     8G  0 lvm  [SWAP]
  └─vg0-lv_debian9_home 254:5    0    64G  0 lvm  /home
sr0                      11:0    1  1024M  0 rom  
 — сделал сдоровенный LVM, что совместно используется бетой RHEL 8 и Debian 9. Хотел ещё Arch для компании, но тут началось. Там ещё sda4 есть, что расширенный — на нём пару логических сделать думал, для /boot-ов других систем.

Vsevolod-linuxoid ★★★★★ ()
Последнее исправление: Vsevolod-linuxoid (всего исправлений: 2)
Ответ на: комментарий от Vsevolod-linuxoid

Тогда уж badblocks -w. Если есть возможность, то почему нет? Хотя коде лучше делать это на заведомо исправном компе, с целыми шлейфами, не дребезжащими разъёмами, хорошим БП и пропылесошенной материнкой.

legolegs ★★★★★ ()
Ответ на: комментарий от legolegs

Ноут из дешевых 2015 года. Я просто несколько боюсь его разбирать — вдруг всё внутри там склеено и прочее, хотя по-хорошему надо.

Vsevolod-linuxoid ★★★★★ ()
Ответ на: комментарий от Vsevolod-linuxoid

Может дело в крайней специфике разметки? Она реально необычная

чего в ней необычного? LV как LV..

контроллеру HDD пофигу что там уровнями выше - сказали ему WRITE/READ #LBA он записал/прочитал.. попутно нагадил тебе в лог смарта что «упс.. а тут я не смагла»

Minona ★★ ()
Ответ на: комментарий от Vsevolod-linuxoid

разбери, пропылесось, поменяй термопасту.

купи SSD раз ноут любит выполнять фигуры высшего пилотажа..

Minona ★★ ()

-s on

Это включается один раз.

Про 5, 187, 196, 197 атрибуты уже сказали - диск уходит в сторону смерти. Про тряску и 191 атрибут - тоже уже сказали, нельзя так трясти ноут с вращательным hdd, ему от этого необратимо плохеет. Причём это не самсунг с супер-чувствительным G-Sensor датчиком, а тошиба. В общем, купи ssd в ноут (тем более, что сейчас что-то случилось на рынке и оригинальный 860 evo можно купить за копейки в Китае), а этот диск попили whdd и оставь под некритичные временные данные (например, скачанные торренты)

Deleted ()
Ответ на: комментарий от Minona

Фирмварь-то почистит, а проверять за ней кто будет?

legolegs ★★★★★ ()

SMART - Смотри, Мудак, А-то Рррраз и Трындец.

dikiy ★★☆☆☆ ()
Ответ на: комментарий от Minona

У меня вот этот счетчик медленно растет сам по себе. Я пробовал перед любым переносом ноута усыплять его, не трясу. Так же снимал и ставил винт заново - мало ли он был плохо закреплен. Пытаюсь поймать момент увеличения счетчика - никак. Иногда после перезагрузки растет на единицу.

Еще у меня вот что показывает с первого дня:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   084   064   006    Pre-fail  Always       -       226323371
  7 Seek_Error_Rate         0x000f   080   060   045    Pre-fail  Always       -       99679988

В гуи для смартктла, если навести на эти строки вылезает подсказка с описанием, и сказано, что некоторые диски (e.g. Seagate) могут показывать некоторые значения от балды - это не признак проблем в системе.

Но G-sense меня напрягает, конечно.

namefree ()
Ответ на: комментарий от anonymous

Аноны продолжали гадать по RawValue, и не только аноны.

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   063   063   000    Old_age   Always       -       15064

Т.е. диск был включен 63 часа, да? Надо понимать, как и какие значения интерпретировать, а не тупо в нормализованное значение пялиться

namefree ()
Ответ на: комментарий от Vsevolod-linuxoid

Нет, вон написано 15к часов.

Я написал анону, который «учит» как правильно читать, а то что смартктл в других местах показывет уже «готовые» статы и они совпадают с RAW_VALUE из таблицы он не подозревает.

namefree ()
Ответ на: комментарий от SergeySVold

Кстати, у меня на одном из ноутов этот счетчик рос просто за счет вибрации самого ЖД в корпусе, пришлось сделать прокладочку из винной (ЕМНИП) пробки :-D

Брат жив и бегает до сих пор) До этого и софтбэды были. Третий год винту пошел WD.

Twissel ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.