LINUX.ORG.RU

SSD живое или уже всё?

 


0

2

Собсна, вот. Ради смеха засунул в роутер в качестве системного диска кетайский SSD и оставил на полгода. А тут чего-то вспомнил и решил у его SMART глянуть. А оно вон чего выдало:

=== START OF INFORMATION SECTION ===
Device Model:     KingDian S180 60GB
Serial Number:    2017031005411
LU WWN Device Id: 0 000000 000000000
Firmware Version: P0921B
User Capacity:    60 022 480 896 bytes [60,0 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Jan 31 01:54:19 2018 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(    0) seconds.
Offline data collection
capabilities: 			 (0x11) SMART execute Offline immediate.
					No Auto Offline data collection support.
					Suspend Offline collection upon new
					command.
					No Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					No Selective Self-test supported.
SMART capabilities:            (0x0002)	Does not save SMART data before
					entering power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (   1) minutes.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0000   100   100   050    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0002   100   100   050    Old_age   Always       -       0
  9 Power_On_Hours          0x0000   100   100   050    Old_age   Offline      -       1
 12 Power_Cycle_Count       0x0000   100   100   050    Old_age   Offline      -       34
160 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       0
161 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       115
162 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       1
163 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       6
164 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       21925
165 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       38
166 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       2
167 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       21
168 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       3000
169 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       100
192 Power-Off_Retract_Count 0x0000   100   100   050    Old_age   Offline      -       17
194 Temperature_Celsius     0x0000   100   100   050    Old_age   Offline      -       40
195 Hardware_ECC_Recovered  0x0000   100   100   050    Old_age   Offline      -       1993
196 Reallocated_Event_Count 0x0000   100   100   050    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0000   100   100   050    Old_age   Offline      -       0
241 Total_LBAs_Written      0x0000   100   100   050    Old_age   Offline      -       7280
242 Total_LBAs_Read         0x0000   100   100   050    Old_age   Offline      -       5922
245 Unknown_Attribute       0x0000   100   100   050    Old_age   Offline      -       25783

Warning! SMART ATA Error Log Structure error: invalid SMART checksum.
SMART Error Log Version: 1
Invalid Error Log index = 0x28 (T13/1321D rev 1c Section 8.41.6.8.2.2 gives valid range from 1 to 5)

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


Selective Self-tests/Logging not supported

Так мне чего-то непонятно. Оно ещё живое или уже сдохло?

SMART overall-health self-assessment test result: PASSED

196 Reallocated_Event_Count 0x0000 100 100 050 Old_age Offline - 0

5 Reallocated_Sector_Ct 0x0002 100 100 050 Old_age Always - 0

Да вроде живее всех живых. С чего ты взял, что что-то сдохло?

intelfx ★★★★★ ()
Ответ на: комментарий от intelfx

Да вроде живее всех живых. С чего ты взял, что что-то сдохло?

Ну если взять англо-русский словарик и посмотреть, то значени слова: «WORST — наихудшее, самое плохое». А в колонке WORST сверху вниз по 100 очков набрано. Данный факт и создаёт почву для беспокойства.

Объясни, для чего предназначена колонка WORST?

anonymous ()
Ответ на: комментарий от intelfx

Ты смотришь на традиционные для HDD показатели. Для SSD надо учитывать и другие, которые у ТС все Unknown. Тут надо либо выяснять, что у диска внутри и добавлять в базу, либо вообще ни на что не смотреть, кроме -H.

anonymous ()

SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)

Больше ничего подозрительного. Он у тебя в SATA2 подключен?

Deleted ()
Device Model:     KingDian S180 60GB

Накупять кетайцев всяких...

241 Total_LBAs_Written      0x0000   100   100   050    Old_age   Offline      -       7280
242 Total_LBAs_Read         0x0000   100   100   050    Old_age   Offline      -       5922

Да вроде всего ничего и пожил.

Прогони по нему extended selftest из SMART, если сомневаешься.

Radjah ★★★★★ ()
Ответ на: комментарий от anonymous

Объясни, для чего предназначена колонка WORST?

Для показа наихудшего значения. Шкала обратная же, чем больше, тем лучше, чем меньше, тем хуже. Текущее значение (прям сейчас) 100, наихудшее значение (за всё время использования) 100, пороговое значение (после которого приходит пушной зверёк) 50.

redgremlin ★★★★★ ()
Ответ на: комментарий от intelfx

С чего ты взял, что что-то сдохло?

Оно вроде как не совсем сдохло, но есть подозрения, что процесс склейки ласт уже в самом разгаре. Система ведёт себя совершенно непонятно. То по SSH коннектиться может секунд по тридцать, то из сессии выкинет. htop при этом показывает, что проц загружен на 1-2% и память чуть ли не вся свободная.

robert_d ()
Ответ на: комментарий от robert_d

Ты, наверное, его разметил весь и у контроллера нет свободных блоков для wear-leveling. Попробуй создать на ssd пустой раздел размером в 5-10% ёмкости и сделать на него blkdiscard. Ну а вообще проверку через badblocks никто не отменял.

legolegs ★★★★★ ()
Ответ на: комментарий от anonymous

Да, ты прав. Но здесь нормализованные все хорошие вроде, даже в неизвестных атрибутах.

intelfx ★★★★★ ()
Ответ на: комментарий от robert_d

Плюсую discard. Какая ФС? fstrim на ней сделай, и делай регулярно. И опцию discard можно включить.

intelfx ★★★★★ ()

Запусти на нём тесты smartctl -t short и smartctl -t long, это на пару минут и где-то часок соответственно. Потом посмотри, что smartctl -x выдаёт, там побольше информации.

i-rinat ★★★★★ ()
Ответ на: комментарий от i-rinat

это на пару минут и где-то часок соответственно

Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (   1) minutes.
intelfx ★★★★★ ()
Ответ на: комментарий от intelfx

Extended self-test routine
recommended polling time: ( 1) minutes.

Это ты намекаешь, что long тест за минуту завершится? Там, конечно, рекомендуемый интервал проверок, но почти везде я видел числа, примерно соответствующие длительности теста.

Если предположить, что длительный тест закончится за минуту, но при этом прочитает всё содержимое хотя бы один раз, скорость чтения должна быть где-то гигабайт в секунду — 60 гигабайт за 60 секунд. Не верится, что этот SSD такое осилит.

Так что оставить на часок, а потом проверить — самое то. IMHO, лучше, чем сидеть всё это время уставившись в монитор и каждые десять секунд проверять статус.

i-rinat ★★★★★ ()
Ответ на: комментарий от i-rinat

Это ты намекаешь, что long тест за минуту завершится?

Да.

Там, конечно, рекомендуемый интервал проверок, но почти везде я видел числа, примерно соответствующие длительности теста.

Вроде того.

Если предположить, что длительный тест закончится за минуту, но при этом прочитает всё содержимое хотя бы один раз

Я бы скорее предположил, что он просто не будет ничего читать.

intelfx ★★★★★ ()

Оба-два self-test сказали, что всё ОК.
fstrim чего-то сделал

fstrim -v /
/: 17,3 GiB (18517565440 bytes) trimmed

fstrim -v /home
/home: 29,4 GiB (31524081664 bytes) trimmed

Попутно поменял шлейфы на SATA. Опосля проделанных операций вроде как систему попустило. Но кетайское поделие я больше никуда ставить не буду.

robert_d ()
Ответ на: комментарий от robert_d

Ты это, ФС монтируй с discard опцией, должно полегчать.

Попутно поменял шлейфы на SATA

Вот это могло здорово помочь.

timdorohin ★★★ ()

определять здоровье SSD по показателю SMART не очень разумно. Сегодня показывает что всё нормально, а завтра прошивка фигакнется или контроллер заглючит - и всё

SakuraKun ★★★★★ ()
Ответ на: комментарий от lebfr

По куриным потрошкам же. Я думал это для знающих людей сайт.

legolegs ★★★★★ ()
Ответ на: комментарий от lebfr

через хрустальный шар, очевидно же) а если шара нету - просто бэкапить почаще. с обычными HDD по SMART смотреть более надёжно (хотя тоже не 100%) и HDD обычно дохнут за 1-3 дня, предупреждая всякими шумами/подвисаниями о скорой кончине и ещё можно успеть что-то забэкапить. а SSD любят дохнуть быстро и внезапно! + если их какое-то время (зависит от вида SSD и температуры хранения) не включать в комп то просто пропадут данные - https://xakep.ru/2015/05/12/ssd-retention/ («SSD могут терять данные через 7 дней после обесточивания»)

SakuraKun ★★★★★ ()
Ответ на: комментарий от SakuraKun

Спасибо капитан. ) Я думал, что-то новое появилось.

lebfr ()
Ответ на: комментарий от legolegs

Ты, наверное, его разметил весь и у контроллера нет свободных блоков для wear-leveling. Попробуй создать на ssd пустой раздел размером в 5-10% ёмкости и сделать на него blkdiscard. Ну а вообще проверку через badblocks никто не отменял.

Ересь какая. Контроллеру флеша вообще пофиг, как пользователь разметку сделал - хоть GPT, хоть MBR; сколько разделов, и прочая чехарда. Ему тупо насрать, ибо работает он на уровень ниже всего этого. Более того, ячейки, хранившие вчера данные раздела свап, сегодня уже могут быть заняты данными раздела хоум. Аналогия проста: виртуальные машины (разметка диска и пользовательские данные) на оркестраторе (контроллер) гипервизора vmware (массив флеша) - сегодня виртуалка N работает в Москве на ноде DL360, завтра - на ноде DL585 во Франкфурте.

Druker ()
Ответ на: комментарий от legolegs

Ухты, советы из 2009 года. Чо там ещё, вынести кэши и временные файлы на HDD? Кстати, закупайся биткоинами.

anonymous ()
Ответ на: комментарий от robert_d

Система ведёт себя совершенно непонятно. То по SSH коннектиться может секунд по тридцать, то из сессии выкинет.

Я вангую, что проблема не в диске, а в чем-то еще.

anonymous ()
Ответ на: комментарий от anonymous

Трим, очевидно, не делался. Конкретный ssd топикстартера даже Power_On_Hours посчитать не в состоянии, откуда у него резервные блоки?

legolegs ★★★★★ ()
Ответ на: комментарий от legolegs

Контроллеру для всего этого нужен запас незадействованных блоков.

Резерв флеша есть и он не виден конечному пользователю. Почитайте хоть один детальный обзор любого твёрдотельного накопителя, там всё разжёвано.

Druker ()
Ответ на: комментарий от greenman

В low-end ssd резерв минимален.

Ну так я про его размеры ничего и не говорил ;)

Druker ()
Ответ на: комментарий от legolegs

Трим, очевидно, не делался.

Откуда такая «очевидность»? Вы серьёзно считаете, что регулярные отправки команды TRIM с хоста в диск продлят его жизнь? :)

Druker ()
Ответ на: комментарий от legolegs

Трим, очевидно, не делался

В этом и проблема.

anonymous ()
Ответ на: комментарий от Druker

Откуда такая «очевидность»?

Читаем топик:

Ради смеха засунул в роутер

legolegs ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.