LINUX.ORG.RU

наткнулся на сбойные сектора на очередном nvme ssd

 , , , ,


2

4

Уважаемый ЛОР,

Я словил очередное проявление сбойных секторов на SSD. Пациент — Samsung SSD 980 PRO 2TB с прошивкой 3B2QGXA7, в эксплуатации примерно год. Что интересно, с предыдущим накопителем проблемы обнаружились тоже примерно через год после начала эксплуатации.

Думал, что это просто старый накопитель был сбойный, поэтому даже не помню, пробовал ли делать полное чтение на новом с момента переезда. Но вот недавно мне понадобилось сбросить данные с раздела с Windows, и оно опять:

critical medium error, dev nvme0n1, sector 3854183392 op 0x0:(READ) flags 0x80700 phys_seg 32 prio class 2

В этот раз плохие сектора оказались намертво плохими. Попытки чтения из них не давали ничего.

Вот текущие параметры SMART, если интересно:

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        34 Celsius
Available Spare:                    79%
Available Spare Threshold:          10%
Percentage Used:                    3%
Data Units Read:                    267 208 610 [136 TB]
Data Units Written:                 115 214 434 [58,9 TB]
Host Read Commands:                 1 770 760 875
Host Write Commands:                880 382 061
Controller Busy Time:               8 163
Power Cycles:                       452
Power On Hours:                     2 220
Unsafe Shutdowns:                   30
Media and Data Integrity Errors:    32 243
Error Information Log Entries:      32 243
Warning  Comp. Temperature Time:    21
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               34 Celsius
Temperature Sensor 2:               35 Celsius
Thermal Temp. 1 Transition Count:   37
Thermal Temp. 2 Transition Count:   17
Thermal Temp. 1 Total Time:         570
Thermal Temp. 2 Total Time:         1815

Удалось отследить, что было задето. Это был старый LVM том со swap, который ни разу со дня миграции не использовался. И это были файлы игр из Steam, которые я в последний год не запускал, судя по датам в Steam’е. То есть симптомы те же — сбоят места, которые очень давно даже не читались. И я даже не знаю, попали ли мне плохие экземпляры, или это вообще общая проблема. У текущего экземпляра ещё и «Available Spare» за пару дней упал с 92% до 79%.


Upd. Оказывается, известная проблема: https://www.tomshardware.com/news/samsung-980-pro-ssd-failures-firmware-update.


Upd. 2023-02-15. Обновил прошивку до актуальной версии, 5B2QGXA7. На всякий случай сделал trim вообще по всему объёму, хотя ещё до этого выяснил, в каких именно файлах были проблемы и потримил занимаемое ими место. Пока что весь объём читается нормально.


Upd. После обновления прошивки операция TRIM стала заметно дольше выполняться. По ощущениям раз в 10 дольше.


Перемещено hobbit из general

★★★★★

Последнее исправление: i-rinat (всего исправлений: 3)

Как-то грустно. Я сейчас перевел боевой 960Pro под хранение ценных данных - был так сказать уверен что самсунг это в плане надежности крепость типа фот-нокс. А в боевой режим взял 4Тб Kingston Fury Renegade.

А тут такие новости блин…. Если самсунг такое вытворяет - что же тогда от говнокингстона ждать…

Про 960 тоже была кстати история - они выпустил бажный firmware, но к тому моменту как я сподобился обновиться его уже отозвали. А для тех кто успел отхватить лиха - выпустили старую прошивку с новым номером для перезалития (самсунг не позволял по крайней мере тогда даунгрейд).

Qui-Gon ★★★★★
()
Последнее исправление: Qui-Gon (всего исправлений: 1)
Ответ на: комментарий от Qui-Gon

Про 960 тоже была кстати история - они выпустил бажный firmware, но к тому моменту как я сподобился обновиться его уже отозвали. А для тех кто успел отхватить лиха - выпустили старую прошивку с новым номером для перезалития (самсунг не позволял по крайней мере тогда даунгрейд).

Это прелееестно! :(

Dimez ★★★★★
()
8 мая 2023 г.
Ответ на: комментарий от annulen

DDR тоже быстрее работает, если читать последовательно. Чтобы прочесть данные нужно выставить строку и столбец, а потом сходить на перекур на тайминге пока память это всё сделает. И только потом можно будет прочесть несколько слов подряд burst’ом без необходимости на каждое слово выставлять строку и столбец.

Другое дело, что ПО не работает напрямую с памятью, только с кэшем. Поэтому от всей этой сложности избавлено.

Но когда сам пилишь контроллер памяти на fpga, то становится очевидно, что никакого рандомного доступа у ddr нет.

ox55ff ★★★★★
()
26 марта 2024 г.

После обновления прошивки уже год с лишним прошёл. Как пациент?

Интересно было бы найти <большой> файл, записанный год назад и проверить его скорость чтения. Сравнив с файлом, записанным неделю-другую назад.

greenman ★★★★★
()
Последнее исправление: greenman (всего исправлений: 1)
Ответ на: комментарий от greenman

Как пациент?

Я не заметил с ним проблем. Когда последний раз полный дамп снимал, ошибок не было. Это было 12 января 2024.

найти <большой> файл, записанный год назад и проверить его скорость чтения. Сравнив с файлом, записанным неделю-другую назад.

Есть файл около восьми с половиной гигов, записанный 27 апреля 2023 года. Скорость чтения (O_DIRECT): 3.5 GB/s.
Есть файл около шестнадцати гигов, записанный 5 марта 2024 года. Скорость чтения (O_DIRECT): 3.5 GB/s.
В общем-то эти 3.5 GB/s и есть скорость чтения накопителя.

i-rinat ★★★★★
() автор топика