smart на ssd

0

4

Всем привет, не очень хорошо разбираюсь в показателях smart, кто-нибудь может рассказать про такую портянку

smartctl 6.4 2015-06-04 r4109 [x86_64-apple-darwin14.4.0] (local build)
Copyright (C) 2002-15, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Crucial/Micron RealSSD m4/C400/P400
Device Model:     C400-MTFDDAK128MAM
Serial Number:    000000001304092704E6
LU WWN Device Id: 5 00a075 1092704e6
Firmware Version: 040H
User Capacity:    128 035 676 160 bytes [128 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Fri Oct  9 12:21:17 2015 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x80)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever
					been run.
Total time to complete Offline
data collection: 		(  595) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (   9) minutes.
Conveyance self-test routine
recommended polling time: 	 (   3) minutes.
SCT capabilities: 	       (0x003d)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   050    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       26624 (0 1)
  9 Power_On_Hours          0x0032   100   100   001    Old_age   Always       -       3589
 12 Power_Cycle_Count       0x0032   100   100   001    Old_age   Always       -       2191
170 Grown_Failing_Block_Ct  0x0033   100   100   010    Pre-fail  Always       -       45
171 Program_Fail_Count      0x0032   100   100   001    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   001    Old_age   Always       -       0
173 Wear_Leveling_Count     0x0033   100   100   010    Pre-fail  Always       -       2
174 Unexpect_Power_Loss_Ct  0x0032   100   100   001    Old_age   Always       -       965
181 Non4k_Aligned_Access    0x0022   100   100   001    Old_age   Always       -       11 0 11
183 SATA_Iface_Downshift    0x0032   100   100   001    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   050    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   001    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   001    Old_age   Always       -       0
189 Factory_Bad_Block_Ct    0x000e   100   100   001    Old_age   Always       -       81
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       0
195 Hardware_ECC_Recovered  0x003a   100   100   001    Old_age   Always       -       0
196 Reallocated_Event_Count 0x0032   100   100   001    Old_age   Always       -       45
197 Current_Pending_Sector  0x0032   100   100   001    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   001    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   001    Old_age   Always       -       0
202 Perc_Rated_Life_Used    0x0018   100   100   001    Old_age   Offline      -       0
206 Write_Error_Rate        0x000e   100   100   001    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

С подозрением смотрю на Grown_Failing_Block_Ct. Что оно значит, гугл с первого раза не подсказал.

Ссылка

← oVirt qemu kvm - после перезагрузки не стартуют виртуалки

openldap и права доступа →

174 Unexpect_Power_Loss_Ct - 965
Ты всегда ПК выключаешь выдёргивая из розетки?
196 Reallocated_Event_Count - 45 +
5 Reallocated_Sector_Ct - 26624
Труп, без вариантов.

Jefail ★★★★★
(09.10.15 12:29:21 MSK)
Последнее исправление: Jefail 09.10.15 12:30:57 MSK (всего исправлений: 1)

Ответ на: комментарий от Jefail 09.10.15 12:29:21 MSK

Raw value может быть сильно различным и трактоваться неоднозначно, вроде. Разве не лучше смотреть на разность VALUE и TRESH?

~~Norong~~ ★★
(09.10.15 12:31:51 MSK)

Ответ на: комментарий от Jefail 09.10.15 12:29:21 MSK

Ты всегда ПК выключаешь выдёргивая из розетки?

Это внешний диск, к тому же не мой. Про Unexpect_Power_Loss_Ct теперь всё понятно, симптомы были в том, что диск не мог безопасно отцепиться и его просто дергали.

196 Reallocated_Event_Count - 45
Труп, без вариантов.

Спасибо.

autonomous ★★★★★
(09.10.15 12:32:50 MSK) автор топика

Ответ на: комментарий от Norong 09.10.15 12:31:51 MSK

Я согласен, что raw каждый вендор имплементирует по своему, но в 98% случаев в нём содержится понятная человеку информация в нормальных единицах.

Jefail ★★★★★
(09.10.15 12:33:56 MSK)

Ответ на: комментарий от autonomous 09.10.15 12:32:50 MSK

При этом селф-тесты проходят без ошибок

autonomous ★★★★★
(09.10.15 12:34:07 MSK) автор топика

Ответ на: комментарий от autonomous 09.10.15 12:34:07 MSK

Self-тестирование в моем понимании делает непонятно что, не раз видал дохлые SSD, которые этот тест проходили. Вот список атрибутов, критичные отмечены красным
https://en.wikipedia.org/wiki/S.M.A.R.T.#Known_ATA_S.M.A.R.T._attributes

Jefail ★★★★★
(09.10.15 12:36:01 MSK)

Ответ на: комментарий от Jefail 09.10.15 12:33:56 MSK

Но ведь не с проста же у него value 100, а tresh 001, т.е. больше - лучше, а у него - потолок.

~~Norong~~ ★★
(09.10.15 12:36:50 MSK)

Ссылка

Ответ на: комментарий от Jefail 09.10.15 12:36:01 MSK

Спасибо еще раз, ты меня полностью удовлетворил :)

autonomous ★★★★★
(09.10.15 12:38:19 MSK) автор топика

Ссылка

А тогда сразу еще насущный вопрос, что сейчас модно покупать из ssd для внешнего диска?

autonomous ★★★★★
(09.10.15 12:42:58 MSK) автор топика

Ответ на: комментарий от autonomous 09.10.15 12:32:50 MSK

196 Reallocated_Event_Count - 45
5 Reallocated_Sector_Ct - 26624
Труп, без вариантов.

Спасибо.

Не за что. Он тоже, как и ты, не умеет читать смарт. Например, вот статья на ixbt.

Kiborg ★★★
(09.10.15 13:25:58 MSK)
Последнее исправление: Kiborg 09.10.15 13:35:44 MSK (всего исправлений: 1)

Ответ на: комментарий от autonomous 09.10.15 12:42:58 MSK

Если ты беспокоишься о сохранности своих данных, то купи внешний отключаемый USB сторадж, и регулярно делай на него бэкапы акронисом или чем ты там пользуешься. А когда твой диск навернется лет через сколько-то, тогда и будешь думать о замене.

Kiborg ★★★
(09.10.15 13:28:18 MSK)

советую gsmartcontrol

anonymous
(09.10.15 13:44:40 MSK)

Ссылка

Ответ на: комментарий от Kiborg 09.10.15 13:28:18 MSK

я по пунктам

речь идет тут про ssd, имхо есть определенная специфика

по твоей ссылке есть следующая инфа про Reallocated_Event_Count, который у меня имеет значение 45

На счёт этого атрибута мнения разнятся. Лично я считаю, что если он достиг 10, диск нужно обязательно менять — ведь это означает прогрессирующий процесс деградации состояния поверхности либо блинов, либо головок, либо чего-то ещё аппаратного, и остановить этот процесс возможности уже нет

не раскрыта тема параметра Grown_Failing_Block_Ct, судя по значению оно связано с Reallocated_Event_Count, но это ведь не одно и тоже?
есть симптомы - диск отваливается во время работы, диск нельзя корректно отмонтировать
бекапы делаются, речь идет о диске, который должен корректно работать

И самое главное, ты что-нибудь можешь предложить конкретно по ситуации, кроме rtfm?

autonomous ★★★★★
(09.10.15 13:45:04 MSK) автор топика

Ответ на: комментарий от Kiborg 09.10.15 13:25:58 MSK

Сам то читал?

RAW (Data) — самый интересный, важный и нужный для оценки показатель. В большинстве случаев он содержит в себе не «попугаи», а реальные значения, выражаемые в различных единицах измерения, напрямую говорящие о текущем состоянии диска. Основываясь именно на этом показателе, формируется значение Value (а вот по какому алгоритму оно формируется — это уже тайна производителя, покрытая мраком). Именно умение читать и анализировать поле RAW даёт возможность объективно оценить состояние винчестера.

Если речь идет об Reallocated Events / Sector Count здесь вообще не важно сколько их, любое значение отличное от 0 говорит о том, что память поехала.

Jefail ★★★★★
(09.10.15 14:00:32 MSK)

Ответ на: комментарий от autonomous 09.10.15 13:45:04 MSK

Насчёт выбора, моя личная статистика по 8 дискам, не сдох ни один интел, вообще не один. В макбуке, который я продал 3хх серия была, 1,5 года, запись была в районе 28тб при продаже (обхем диска 180), у второго владельца ходит до сих пор без нареканий. Все остальные вендоры дохли, OCZ, Kingston, AData и Samsung.

Jefail ★★★★★
(09.10.15 14:04:42 MSK)

Ссылка

Ответ на: комментарий от autonomous 09.10.15 13:45:04 MSK

В плане SMART специфики у SSD никакой нет, точно так же умеют «отъезжать» и обычные диски.

есть симптомы - диск отваливается во время работы, диск нельзя корректно отмонтировать

Так сразу и написал бы об этом в топике. Если диск «отъезжает», есть две причины: либо загибается железо, либо проблемная прошивка. Проверь обновление прошивки для диска, 80% что оно вылечит диск. Если не вылечит, то скорее всего у него какая-то аппаратная проблема: питание отрубается, или перегрев микросхемы, ХЗ.

В остальном, для интерпретации параметров SMART и оценки состояния диска есть поля Value, Worst и Threshold. Диск считает, что проблем с Grown_Failing_Block_Ct, так же как и с Reallocated_Event_Count, на данный момент нету. Такой диск можно продолжать использовать для некритичных задач, если продолжит отрубаться после перепрошивки.

У меня стоит на тестовом стенде жесткий диск (обычный), у которого SMART орёт что диск умер. Изначально он часто точно так же отъезжал и не виделся системой, после перепрошивки перестал. Смарт по-прежнему орет, но диск до сих пор в строю, уже несколько лет.

Kiborg ★★★
(09.10.15 14:38:20 MSK)

Ответ на: комментарий от Kiborg 09.10.15 14:38:20 MSK

Спасибо, попробую прошить. Про некорректную работу я писал в комментах.

autonomous ★★★★★
(09.10.15 14:43:27 MSK) автор топика

Ответ на: комментарий от Jefail 09.10.15 14:00:32 MSK

Отличное от 0 значение — это нормально для диска, который какое-то время работал. Диск поюзан, возможно, но пока Worst больше 50 при Threshold 10, я бы вообще не парился. Реально я бы не парился где-то до 20, а потом заменил бы диск. А кроме того:

26624 (0 1)

Что означает "(0, 1)"?

Kiborg ★★★
(09.10.15 14:44:43 MSK)

Ссылка

Ответ на: комментарий от autonomous 09.10.15 14:43:27 MSK

А, я проглядел. А диск когда не может отмонтироваться, IO Error выдает при попытке доступа? Что-нибудь в dmesg при отмонтировании видно? С какой ошибкой не отмонтируется?

Kiborg ★★★
(09.10.15 14:47:22 MSK)

Ответ на: комментарий от Kiborg 09.10.15 14:47:22 MSK

Он на винде юзается, там можно где-то это посмотреть? Хотя надо его просто в линуксе получше поюзать. Я его только в smartctl посмотрел, отмонтировался при этом нормально.

autonomous ★★★★★
(09.10.15 14:51:03 MSK) автор топика
Последнее исправление: autonomous 09.10.15 14:51:41 MSK (всего исправлений: 1)

Ответ на: комментарий от autonomous 09.10.15 14:51:03 MSK

На винде не знаю, не отмонтироваться может если какой-то процесс держит открытый файл на устройстве, не обязательно из-за отказа.

Kiborg ★★★
(09.10.15 15:27:10 MSK)

Ответ на: комментарий от Kiborg 09.10.15 15:27:10 MSK

Банально может в настройках антивируса стоять галка на «автоматически сканировать съемные устройства» или чем то подобном.

baralgin ★
(09.10.15 15:34:40 MSK)

Ссылка

Ответ на: комментарий от Kiborg 09.10.15 13:25:58 MSK

Вот тебе ноутбук со сдохшим диском, не ставится ни одна ОС, фейлится на самом начале, вот тебе смарт, куча реаллоков, но, посмотрите-ка! Value то 100 при Threshold 0.
По твоей логике такой диск идеален и здоров аки был.
Я имел дело с десятками сдохших дисков / SSD накопителей и единственное на что нужно ориентироваться в смартах - это RAW. И нечего людей в заблуждение вводить.
Фото: https://pp.vk.me/c624816/v624816390/41db0/ymznOUDm2x4.jpg

Jefail ★★★★★
(09.10.15 21:34:56 MSK)

Ответ на: комментарий от Jefail 09.10.15 21:34:56 MSK

По моей — да. Физически, во всяком случае, диск, скорее всего, здоров, т. е. проблема точно не в количестве реаллоцированных секторов. Вопрос, скорее, к состоянию прошивки.

Паниковать раньше времени (особенно, при наличии бэкапов) не стоит, а то так разориться на замене дисков можно. Я пока вообще не вижу причин для беспокойства у ТС, за исключением симптомов, напрямую с состоянием памяти не связанных. Если количество реаллоцированных секторов начинает быстро расти, это признак деградации, да, но в SSD с этим как раз должно быть проще: в дисках с блинами это может означать попадание пыли или отслаивание магнитного покрытия, и тогда диск реально быстро помирает.

Короче, мой поинт в том, что SMART врет достаточно редко, чтобы ему не верить. Это не исключает таких случаев как твой (какова бы ни была причина), но в целом я скорее предположу баг в прошивке, чем загибание железа. Опять же, у тебя ведь проблема не с чтением/записью содержимого диска, если я правильно понимаю?

фейлится на самом начале

По какой причине фейлится? Отваливается? Если отваливался всегда, вопрос почему не поменяли по гарантии. В любом случае это не следствие износа. Если начал отваливаться с какого-то определенного момента, то, возможно, дело все-таки в кривой прошивке? Вот если не читаются определенные области, и при этом SMART говорит, что всё ОК, тут конечно лажа, он должен сигнализировать о большом количестве нечитаемых секторов.

Ну и еще, ситуация зависит от применения конкретного диска. Если он, например, в продакшене стоит и периодически вырубается, то проще его заменить и потом уже разбираться, что с ним делать — починить и на рабочую станцию поставить, или сразу выкинуть. А если это домашний комп, я сначала все-таки попробую его оживить (не забываем про бэкапы).

Kiborg ★★★
(10.10.15 01:43:22 MSK)

Ответ на: комментарий от Kiborg 10.10.15 01:43:22 MSK

Короче, мой поинт в том, что SMART врет достаточно редко

Я не говорю, что смарт врёт. У меня другой подход к работе с ним. Вы ориентируетесь на разницу между Value и Threshold, я смотрю всегда на RAW (особенно для критичных атрибутов). Меня пока-что такая практика никогда не подводила.

Jefail ★★★★★
(10.10.15 13:19:02 MSK)

Ссылка

Ответ на: комментарий от Kiborg 10.10.15 01:43:22 MSK

Вот вам пример на основе моего смарта. Смотрим на атрибут 225, он показывает сколько было записано блоков по 32 МБ (смотрим есс-но на значение RAW VALUE), методом нехитрых рассчетов получаем цифру в 4тб. Однако VALUE = 100, а THRESH = 000, т.е. по вашей логике эти 4 тб на диск вообще никак не сказались, ок, но теперь давайте посмотрим на 233 артибут, который показывает износ носителя, вот тут уже бесполезно смотреть на RAW, потому что он равен 0, а схема с VALUE + THRESH работает как и должна, получается «здоровье» носителя сейчас 98% из 100 заводских и 000 является критом для данного атрибута, при достижении которого диск свалится в Read-Only.
Возникает резонный вопрос: А почему-же схема Value+Thresh не сработала с 225 атрибутом? При таком раскладе получается что ресурс на запись у нас бесконечный, раз при 4 тб записи VALUE по прежнему равен 100. Однако это не так.
Мораль моего поста в том, что НЕ всегда нужно ориантироваться на схему сравнения VALUE и THRESH, поскольку каждый вендор релизует логику этих атрибутов по своему. Более того, RAW в 99% случаев показывает human-firendly значения в реальных единицах (В цельсиях, если речь идет о температуре, в количестве, если речь идет о ремапах секторов и в МБ, если речь идет о ресурсе). Так вот, в случае ТСа как раз нужно смотреть на RAW критичных аттрибутов, у него хренова гора ошибок и такая же гора реаллокейтов, что говорит лишь об одном - память умирает и не важно что показывает VALUE, это уже значения не имеет.
Соб-но скрин: http://storage4.static.itmages.ru/i/15/1010/h_1444477322_9609472_45572d2dce.png

Jefail ★★★★★
(10.10.15 14:43:24 MSK)

Ответ на: комментарий от Jefail 10.10.15 14:43:24 MSK

Ну, память умирает у носителя с самого начала его использования.

почему-же схема Value+Thresh не сработала с 225 атрибутом?

Полагаю, что это чисто информационный атрибут, у которого хоть йобибайт туда запиши, он будет 100-0 показывать.

RAW в 99% случаев показывает human-firendly значения в реальных единицах
у него хренова гора ошибок

1 Raw_Read_Error_Rate     0x002f   100   100   050    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   001    Old_age   Always       -       0

и такая же гора реаллокейтов

5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       26624 (0 1)
196 Reallocated_Event_Count 0x0032   100   100   001    Old_age   Always       -       45

Я так и не понял, что показывает RAW в первом случае, но сам диск пока считает, что это не является проблемой. Возможно, что это такой же чисто информационный параметр, но все равно не понимаю, как его читать. Что такое 0 и 1?

Вообще, не верю я, что 26624 = 110100000000000b — число переназначенных секторов, не согласуется ни с 0 и 1, ни с 100-10, да и число какое-то больно круглое. Какова вероятность, что ровно 110100000000000b секторов были переназначены к тому моменту, когда мы посмотрели на RAW?

Но кстати, пока гуглил на тему, вот что нашел, может кому пригодится: статья от гугла (2007 год, так что это в основном относится не к SSD дискам). В ней сказано следующее:

We conclude that it is unlikely that SMART data alone can be effectively used to build models that predict failures of individual drive.
It is possible, however, that models that use parameters beyond those provided by SMART could achieve significantly better accuracies. For example, performance anomalies and other application or operating system signals could be useful in conjunction with SMART data to create more powerful models.

Короче, даже если смарт показывает 100% «здоров», и нули в RAW, это еще не повод расслабляться: 36% отказавших дисков показывали то же самое в SMART. Правда, это если брать только отказавшие диски, думается здоровых дисков с такими же параметрами в десятки раз больше.

Kiborg ★★★
(10.10.15 21:54:49 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← oVirt qemu kvm - после перезагрузки не стартуют виртуалки

General

openldap и права доступа →

Похожие темы