[жж] словил сбойные сектора на nvme ssd

badblock, critical medium error, nvme, samsung, ssd, жж

5

7

~~Дорогой~~ Уважаемый ЛОР,

Я словил первое в своей жизни проявление сбойных секторов на SSD. Пациент — Samsung SSD 970 EVO 2TB с прошивкой 2B2QEXE7, в эксплуатации примерно год. Пару-тройку дней назад мне почему-то захотелось сделать копию вообще всех данных из домашней директории, включая файлы, которые легко скачать из сети при надобности. Некоторые из этих файлов лежали там с момента миграции на накопитель, без обращений. И при копировании одного из таких файлов программа сказала: «А я, кажись, чот не могу». После того, как потихоньку пришло осознание произошедшего, я глянул в лог и увидел там:

blk_update_request: critical medium error, dev nvme0n1, sector 313199872 op 0x0:(READ) flags 0x80700 phys_seg 8 prio class 0

Что интересно, во второй раз файл успешно скопировался. Не знаю, прочитались там настоящие данные или мусор. К сожалению, вот этот конкретный файл повторно скачать оказалось неоткуда. Чтение данных с nvme0n1 по тому адресу выдало какие-то данные, не нули. Тут я решил, что SSD умный, что он понял, что страница не читается стабильно, и увёл её в чулан, на её место подставил новую, а данные всё-таки скопировал. Но на всякий случай решил запустить холостое чтение с блочного устройства. Сбойных блоков оказалось больше. Пробовал читать конкретные места. Зачастую чтение было успешным, но через много чтений всё же происходили ошибки. Попробовал перезаписать место с ошибками чтения теми же данными. Ошибки там прекратились.

В итоге сделал дамп через ddrescue, а потом записал этот дамп обратно. Последующие попытки прочитать накопитель целиком уже никаких ошибок не давали. Сижу вот теперь как на пороховой бочке. Пользоваться дальше немного боязно, но и выбрасывать накопитель, который вроде работает, как-то жалко.

За время тестов в логи свалилось 546 строк с «blk_update_request: critical medium error», но ошибки иногда сыпались так часто, что в сумме набралось 888 «callbacks suppressed». В статусе накопителя написано, что ошибок доступа к носителю было 1484. Так как в логи основной системы не попало происходившее на LiveUSB, можно считать, что числа сходятся. К сожалению, не помню, были ли там ошибки до недавних событий. Всего различных сбойных секторов было 167 штук.

В данных из плохих секторов нашлись обрывки Packages из Debian. Судя по версиям пакетов, эти куски из очень старых Packages, возможно ещё из 2016. Если это так, они приехали во время миграции на накопитель, и с тех пор не перезаписывались и не читались. Один кусок оказался очень похож на файл переводов и нашёлся в /usr/share/locale/gl/LC_MESSAGES/coreutils.mo, который конечно же ни разу не читался с момента последней переустановки пакета coreutils в начале августа 2019.

smartctl:

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        41 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    162 937 114 [83,4 TB]
Data Units Written:                 65 584 401 [33,5 TB]
Host Read Commands:                 691 234 670
Host Write Commands:                544 796 594
Controller Busy Time:               3 278
Power Cycles:                       719
Power On Hours:                     2 249
Unsafe Shutdowns:                   82
Media and Data Integrity Errors:    1 484
Error Information Log Entries:      1 783
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               41 Celsius
Temperature Sensor 2:               42 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
No Errors Logged

Терабайт тридцать-сорок я добавил чтением накопителя во время тестов.

Думаю, из произошедшего можно сделать, как минимум, следующие выводы:

полгода без чтения страницы на SSD достаточно для последующих ошибок чтения;
чтение такой страницы не заставляет SSD подменять страницу на новую, он с радостью выдаёт ошибку чтения на одном и том же месте много раз подряд;
trim не означает очистку всех неиспользуемых блоков ФС, они же меньше страницы. Некоторые данные могут жить в закоулках годами;
SSD желательно периодически прочёсывать чтением, чтобы словить сюрпризы пораньше;
если такое происходит на TLC 3D V-NAND, страшно подумать, что будет на QLC.

Upd.
Узнал, что в NVMe есть фича 0x10, которая управляет температурами, при которых SSD должен начать тормозить для снижения нагрева. Правда для 970 EVO эти температуры дожны быть в диапазоне 80–82 °C, а попытка установить любые значения кроме 0 для фичи 0x10 завершаются неудачай.

Upd. 11 мая 2021, то есть примерно через год и два месяца после первого раза, появились новые ошибки чтения. При повторном чтении тех же мест ошибки повторялись, но через некоторое время пропали.

Upd. 5 июня 2021. Аккумулятор оказался вздут в той секции, что прилегает к SSD. Видимо, предупреждение о температурном лимите в 65°C на аккумуляторе написано не просто так.

Upd. 20 февраля 2022. Накопитель отправился на пенсию.

Ссылка

←	XKB. Как разблокировать шифт-уровень?

Как разбить файл на несколько а потом собрать?

→

← 1 2 3 4 →

Ответ на: комментарий от aidaho 23.02.20 20:26:33 MSK

Если там целый год было 80

Ты вроде адекватный

А вот ты что-то сегодня не очень. Я чётко сказал, что это «критическая» температура, то есть температура, при которой накопитель будет слать предупреждения на хост.

год

Текущее состояние обоих датчиков приведено прямо в заглавном сообщении. Истории температуры за год в выхлопе smartctl нет. Она могла бы быть в секции, которая содержит изменяющиеся данные, но её я привёл полностью. В логах через утилиту nvme более подробных данных я не нашёл, так что привёл вывод smartctl, он лучше оформлен.

Теперь ещё раз тот же вопрос. Зачем тебе данные, которые зашиваются в накопитель на фабрике и с этого момента не меняются вообще ни при каких обстоятельствах? Или ты спутал с ATA-накопителями, где smartctl показывает атрибуты?

i-rinat ★★★★★
(23.02.20 20:53:41 MSK) автор топика

так, я не понял, усё пропало, надо переходить на zfs? побежал делать badblocks -v -s -b 4096 /dev/sdb на всех своих ссд…

zendrz ★★
(28.02.20 07:20:32 MSK)

Ответ на: комментарий от gag 23.02.20 17:20:27 MSK

плюс параметр «дата записи» для каждой блока фс. чот много памяти на енто уйдет - ссд подорожает :)
плюс батарейка для RTC (которую потребуется еще менять) либо команда для записи драйвером текущего времени из операционки.
сложна и дорохо !! классически, производитель на такое пойдет когда яйцами к стенке припрут

pfg ★★★★★
(28.02.20 10:08:59 MSK)

Ответ на: комментарий от zendrz 28.02.20 07:20:32 MSK

а чем тебе зфс поможет ?? проблема аппаратная. даже всеми своими 128битами оне ничего кроме громкого имени… :(

pfg ★★★★★
(28.02.20 10:10:32 MSK)

Ответ на: комментарий от pfg 28.02.20 10:10:32 MSK

как чем, штатный скремблинг (я правильно называю?) и чексуммы данных. Хотя, нужна избыточность, что бы это все должным образом работало

zendrz ★★
(28.02.20 12:19:43 MSK)

Ссылка

Ответ на: комментарий от pfg 28.02.20 10:10:32 MSK

проблема аппаратная

можно это как-то перевести в гарантийный случай, например, есть идеи?

zendrz ★★
(28.02.20 12:45:22 MSK)

Ссылка

Ответ на: комментарий от pfg 28.02.20 10:08:59 MSK

плюс параметр «дата записи» для каждой блока фс

Флэш не оперирует такими единицами. Отдельные ячейки объединены в страницы (4 КБ, 16 КБ), которые группируются в блоки (несколько МБ). Считать нам нужно с точностью всего лишь до дня. Если взять 8 бит, это чуть более 8-ми месяцев. Читать мы можем минимум постранично. Для 4 КБ понадобится 1 байт служебной информации. Для 1 ТБ SSD - всего лишь 250 МБ. Совсем немного.

Да и счётчик сам по себе это не что-то новое: во флэш-контроллерах уже должны быть поблочные счётчики read/write disturbance.

gag ★★★★★
(28.02.20 15:59:13 MSK)

Ссылка

Ответ на: комментарий от zendrz 28.02.20 07:20:32 MSK

Лучше пишите программу, которая будет измерять время чтения файла. У файла есть время создания (в ext4 и zfs, вроде), можно будет как-то оценивать, есть ли проблема чтения старых данных у конкретного экземпляра ssd или нет.

mky ★★★★★
(01.03.20 16:16:13 MSK)

Ссылка

Вот поэтому я использую Btrfs. Хотя бы будет понятно, испорчены данные или нет. А дальше уже бэкап, если испорчены.

anonymous
(01.03.20 18:00:08 MSK)

Ссылка

Кстати, хороший вопрос. Вот у контроллера PERC H730P я вижу Patrol Read Mode, которое, возможно (я не знаю достоверно), как раз этим занимается - фоновым перепрочтением диска на предмет его жизнеспособности. А что насчет linux raid? Оно так умеет?

targitaj ★★★★★
(02.03.20 20:26:48 MSK)

Ответ на: комментарий от targitaj 02.03.20 20:26:48 MSK

Судя по описанию, checkarray из mdadm — как раз то, о чём ты говоришь.

i-rinat ★★★★★
(02.03.20 20:50:58 MSK) автор топика

Ответ на: комментарий от i-rinat 02.03.20 20:50:58 MSK

Спасибо, я посмотрю. Что-то я прямо напрягся от этого треда.

targitaj ★★★★★
(02.03.20 21:10:08 MSK)

Ответ на: комментарий от anonymous 23.02.20 17:13:45 MSK

Чем больше объём - тем медленнее износятся ячейки, просто потому что их тупо больше и работает wear leveling.

anonymous
(02.03.20 21:45:52 MSK)

Ссылка

Ответ на: комментарий от i-rinat 23.02.20 20:53:41 MSK

А ведь нужно было колхозить охлаждение…

anonymous
(02.03.20 21:49:04 MSK)

Ответ на: комментарий от anonymous 02.03.20 21:49:04 MSK

Ноутбук с пластиковым корпусом. Там некуда ставить охлаждение, не предусмотрено.

А так чисто софтварно колхозил. При раскатке образа пропускал через dd с гигабайтным буфером, чтобы запись была быстрыми заходами, и накопитель успевал уйти в сон охладиться. Помогло, кстати. Если напрямую с жёсткого диска записывать, температура быстро взбирается до 80-100 и там держится, а если через буфер, то гуляет около 60. Эффективная скорость записи та же.

i-rinat ★★★★★
(02.03.20 22:32:22 MSK) автор топика

Ссылка

Ответ на: комментарий от targitaj 02.03.20 21:10:08 MSK

напрягся от этого треда

У тебя ещё не было внезапных отказов накопителей?

i-rinat ★★★★★
(02.03.20 22:34:26 MSK) автор топика

Как я вообще пропустил этот тред?..

…а надо было btrfs юзать :)

intelfx ★★★★★
(02.03.20 22:51:48 MSK)

Ответ на: комментарий от i-rinat 23.02.20 15:34:06 MSK

У меня ритуал введения в эксплуатацию включает в себя тесты SMART’а, если они есть, и деструктивный прогон badblock’ом

А омовение в крови девственниц случайно там между этапами не происходит?

intelfx ★★★★★
(02.03.20 22:53:31 MSK)

Ответ на: комментарий от intelfx 02.03.20 22:53:31 MSK

Это слишком дорого.

i-rinat ★★★★★
(02.03.20 22:57:26 MSK) автор топика

Ссылка

Пробовал читать конкретные места. Зачастую чтение было успешным, но через много чтений всё же происходили ошибки. Попробовал перезаписать место с ошибками чтения теми же данными. Ошибки там прекратились.

В итоге сделал дамп через ddrescue, а потом записал этот дамп обратно. Последующие попытки прочитать накопитель целиком уже никаких ошибок не давали.

Ну и самого главного не написал — данные-то в итоге потерял или нет?

P. S.: и это я ещё думал, что я слишком активно использую SSD…

intelfx ★★★★★
(02.03.20 23:12:19 MSK)

Ответ на: комментарий от i-rinat 02.03.20 22:34:26 MSK

Внезапных - нет. Тьфу тьфу.

targitaj ★★★★★
(02.03.20 23:21:43 MSK)

Ссылка

Ответ на: комментарий от intelfx 02.03.20 23:12:19 MSK

данные-то в итоге потерял или нет?

Насколько мне известно, нет. Копирование через ddrescue запнулось один раз, но вторая попытка данные отдала.

i-rinat ★★★★★
(02.03.20 23:22:59 MSK) автор топика

Ссылка

Ответ на: комментарий от intelfx 02.03.20 22:51:48 MSK

Чем может btrfs помочь? Я же правильно понимаю проблему, что страницы >1.5 года без чтения перестали читаться?

anonymous
(03.03.20 17:28:32 MSK)

Ответ на: комментарий от anonymous 03.03.20 17:28:32 MSK

Чем может btrfs помочь?

Сам по себе — ничем, он просто мог бы гарантировать, что ничего не потерялось (или наоборот).

А вообще — говорим btrfs, подразумеваем регулярный scrub.

intelfx ★★★★★
(03.03.20 17:32:20 MSK)

Ответ на: комментарий от intelfx 03.03.20 17:32:20 MSK

Нужен то не scrub, а регенерация.

legolegs ★★★★★
(03.03.20 17:46:51 MSK)

Ссылка

Ответ на: комментарий от intelfx 03.03.20 17:32:20 MSK

он просто мог бы гарантировать, что ничего не потерялось (или наоборот).

Потому что btrfs проверит чексуммы при чтении? Я до этого момента даже не знал, что не все файловые системы в это умеют.

Иначе получается, что нельзя быть уверенным, что вместо файла не был прочитан мусор. Что и произошло (близко) с ТСом.

anonymous
(04.03.20 19:37:57 MSK)

Ответ на: комментарий от anonymous 04.03.20 19:37:57 MSK

Да. Далеко не все.

intelfx ★★★★★
(04.03.20 19:39:04 MSK)

Ссылка

Ответ на: комментарий от anonymous 04.03.20 19:37:57 MSK

не все файловые системы в это умеют.

Проще перечислить те, что умеют. Из более или менее доступных только btrfs и ZFS.

Но можно накатить файловые системы поверх dm-integrity.

i-rinat ★★★★★
(04.03.20 20:00:22 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 04.03.20 19:37:57 MSK

Я до этого момента даже не знал, что не все файловые системы в это умеют.

Вообще-то это делает сам девайс.

legolegs ★★★★★
(04.03.20 21:11:11 MSK)

Ответ на: комментарий от legolegs 04.03.20 21:11:11 MSK

Где можно почитать об этом?

anonymous
(04.03.20 23:38:35 MSK)

Ответ на: комментарий от anonymous 04.03.20 23:38:35 MSK

Вижу “crc32 hdd” и “crc32 ssd” в гугле. Значит HDD и SSD тоже считают чексуммы. А в чём отличие железячной проверки от софтверной? Если диск обнаружит страницу/ячейку (или с чем он там работает) с отличной чексуммой, то он отправит ошибку. Если это сделает файловая система, она тоже отправит ошибку.

anonymous
(04.03.20 23:52:45 MSK)

Ответ на: комментарий от anonymous 04.03.20 23:52:45 MSK

А в чём отличие железячной проверки от софтверной?

Когда SATA набирало обороты, были некоторые контроллеры, которые иногда возвращали повреждённые данные, но ошибок при этом не возникало. У каких-то там жёстких дисков бывали странные глюки, когда они писали не туда, куда просили. В обоих случаях железо при последующем чтении сообщит, что всё в порядке. А софтовые реализации всё-таки обнаружат нестыковку контрольных сумм.

i-rinat ★★★★★
(05.03.20 00:05:21 MSK) автор топика

Ответ на: комментарий от i-rinat 05.03.20 00:05:21 MSK

Гм, получается софт предохраняет от ошибок в фирмвари и неисправности самого железа.

anonymous
(05.03.20 12:49:53 MSK)

Ссылка

Ответ на: комментарий от intelfx 02.03.20 22:51:48 MSK

Ага-ага.
https://habr.com/ru/post/476414/
https://arxiv.org/pdf/1707.08514.pdf
https://habrastorage.org/webt/s2/o1/pa/s2o1parvcsurvjl5rkpiijc1fgo.png

EvilFox ★★
(24.03.20 16:37:06 MSK)

Ответ на: комментарий от EvilFox 24.03.20 16:37:06 MSK

В таблице по третьей ссылке IOPSы, надеюсь, а не байты?

legolegs ★★★★★
(24.03.20 17:53:09 MSK)

Ссылка

Ответ на: комментарий от EvilFox 24.03.20 16:37:06 MSK

Ага-ага.

Ara-ara.

Зависимость от нагрузки сильная. У меня ощущение, что я на ext4 сгенерировал больше записей, чем intelfx на btrfs.

i-rinat ★★★★★
(24.03.20 18:04:16 MSK) автор топика

16 мая 2020 г.

Хм. https://www.youtube.com/watch?v=ywwtQ6kFFIc (Samsung 970 Evo NVMe failed again 😥 two in less than a year)

i-rinat ★★★★★
(16.05.20 01:41:34 MSK) автор топика

Ссылка

Только ржавые вращающиеся блины, только олдскул, только хардкор!

Harald ★★★★★
(16.05.20 01:47:58 MSK)

Ссылка

Прошло почти три месяца, и раз уж вспомнил про накопитель, прогнал чтение ещё раз. Ошибок не было.

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        44 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    196 035 944 [100 TB]
Data Units Written:                 79 546 159 [40,7 TB]
Host Read Commands:                 840 599 602
Host Write Commands:                691 669 490
Controller Busy Time:               3 862
Power Cycles:                       830
Power On Hours:                     2 935
Unsafe Shutdowns:                   83
Media and Data Integrity Errors:    1 484
Error Information Log Entries:      1 850
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               44 Celsius
Temperature Sensor 2:               48 Celsius

Семь терабайт записи за три месяца. Два это перезапись содержимого, когда я накопитель «чинил». Порядка одного, может двух — от перебрасывания данных, когда кроме накопителя ноуте подходящего носителя не было. Три-четыре оставшихся, получается, просто от эксплуатации. Как интересно-то. Терабайт в месяц.

i-rinat ★★★★★
(16.05.20 03:04:48 MSK) автор топика

Ответ на: комментарий от i-rinat 16.05.20 03:04:48 MSK

Три-четыре оставшихся, получается, просто от эксплуатации. Как интересно-то. Терабайт в месяц.

Чего ты там делаешь с этим диском-то?

intelfx ★★★★★
(16.05.20 03:20:39 MSK)

Ответ на: комментарий от intelfx 16.05.20 03:20:39 MSK

Компилирую, тесты запускаю.

i-rinat ★★★★★
(16.05.20 03:37:57 MSK) автор топика

Ссылка

Я словил первое в своей жизни проявление сбойных секторов на SSD. Пациент — Samsung SSD 970 EVO

Далее ещё многл букв. Проявление сбойных секторов на SSD вы ещё не словили, по очевидной причине, что на SSD нет секторов.

Partisan ★★★★
(16.05.20 04:16:00 MSK)

11 мая 2021 г.

Сегодня снова словил несколько сбойных секторов. Ошибки чтения так же пропадали и появлялись. В этот раз так же пробовал перезаписать только один сектор, но потом заметил, что если подождать, то сбойные сектора пропадают сами. То есть просто прочитать, подождать. Сейчас прогнал чтение всего накопителя полностью пару раз с перерывом — все сбойные блоки пропали.

Три дня назад у накопителя «Available Spare» сменилось с 100% до 99%. Кажется, он там что-то начал замечать.

Текущий смарт:

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        62 Celsius
Available Spare:                    99%
Available Spare Threshold:          10%
Percentage Used:                    2%
Data Units Read:                    323 456 846 [165 TB]
Data Units Written:                 141 533 824 [72,4 TB]
Host Read Commands:                 1 337 621 408
Host Write Commands:                1 350 829 965
Controller Busy Time:               6 236
Power Cycles:                       1 571
Power On Hours:                     5 784
Unsafe Shutdowns:                   265
Media and Data Integrity Errors:    1 856
Error Information Log Entries:      541 676
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               62 Celsius
Temperature Sensor 2:               65 Celsius

i-rinat ★★★★★
(11.05.21 22:18:25 MSK) автор топика

Ответ на: комментарий от i-rinat 11.05.21 22:18:25 MSK

Я бы грешил на материку все-таки

r0ck3r ★★★★★
(11.05.21 22:22:28 MSK)

Ответ на: комментарий от Partisan 16.05.20 04:16:00 MSK

на SSD нет секторов.

Спецификация NVMe вовсю использует термин sector как аналог logical block. Ядро Linux тоже использует термин sector.

i-rinat ★★★★★
(11.05.21 22:22:29 MSK) автор топика

Ответ на: комментарий от i-rinat 11.05.21 22:22:29 MSK

имеет смысл или как обычно легаси наслоения?

anonymous
(11.05.21 22:35:27 MSK)

Ответ на: комментарий от anonymous 11.05.21 22:35:27 MSK

Спецификации не составляю, так что не знаю.

i-rinat ★★★★★
(11.05.21 22:57:12 MSK) автор топика

Ссылка

Ответ на: комментарий от i-rinat 11.05.21 22:18:25 MSK

А там новых прошивок на этот диск не выходило случайно?

anonymous
(11.05.21 23:26:35 MSK)

Ответ на: комментарий от anonymous 11.05.21 23:26:35 MSK

И fwupd, и Samsung Magician пишут, что версия прошивки самая свежая.

i-rinat ★★★★★
(12.05.21 03:43:36 MSK) автор топика

Ссылка

Ответ на: комментарий от i-rinat 23.02.20 17:10:43 MSK

Да, надо вернутся всему IT обществу к памяти на ферритовых сердечниках. Провод горизонтально, провод вертикально и на них кольца висят. Шутка конечно, ибо плотность крайне низкая.

~~XoFfiCEr~~ ★★☆☆
(12.05.21 05:47:10 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

←	XKB. Как разблокировать шифт-уровень?

General

Как разбить файл на несколько а потом собрать?

→

Похожие темы