LINUX.ORG.RU

Вылетает nvme ssd

 


0

1

Предистория: Неадекватная работа NVME SSD в mdadm RAID 1 + cryptsetup, Debian 11

С нестабильной работой NVME SSD (в случае если оно продолжает работать) вроде удалось справиться, но другая проблема еще пока не исчезла. А именно - внезапное выпадание SSD из системы. SSD внезапно вылетает и исчезает как диск. Вот как выглядит dmesg:

[710667.260705] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[710667.336682] nvme 0000:05:00.0: enabling device (0000 -> 0002)
[710667.336854] nvme nvme0: Removing after probe failure status: -19
[710667.364752] print_req_error: 11 callbacks suppressed
[710667.364754] md/raid1:md128: nvme0n1p2: rescheduling sector 1281554816
[710667.364757] blk_update_request: I/O error, dev nvme0n1, sector 1150584136 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[710667.364758] md/raid1:md128: nvme0n1p2: rescheduling sector 1250693120
[710667.364762] md/raid1:md128: nvme0n1p2: rescheduling sector 723332600
[710667.364764] md/raid1:md128: nvme0n1p2: rescheduling sector 1149533512
[710667.364768] blk_update_request: I/O error, dev nvme0n1, sector 1704508672 op 0x0:(READ) flags 0x0 phys_seg 16 prio class 0
[710667.364771] md/raid1:md128: nvme0n1p2: rescheduling sector 1703458048
[710667.364775] blk_update_request: I/O error, dev nvme0n1, sector 7814035424 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
[710667.364778] md: super_written gets error=-5
[710667.364781] md/raid1:md128: Disk failure on nvme0n1p2, disabling device.
                md/raid1:md128: Operation continuing on 1 devices.
[710667.364795] blk_update_request: I/O error, dev nvme0n1, sector 7814035424 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
[710667.364796] md: super_written gets error=-5
[710667.426858] FAT-fs (nvme0n1p3): unable to read boot sector to mark fs as dirty
[710667.901536] md/raid1:md128: redirecting sector 1250693120 to other mirror: sda2
[710667.920542] md/raid1:md128: redirecting sector 723332600 to other mirror: sda2
[710667.934194] md/raid1:md128: redirecting sector 1149533512 to other mirror: sda2
[710667.969598] md/raid1:md128: redirecting sector 1703458048 to other mirror: sda2
[710668.009764] md/raid1:md128: redirecting sector 1281554816 to other mirror: sda2
[710672.584743] md/raid1:md127: Disk failure on nvme0n1p1, disabling device.
                md/raid1:md127: Operation continuing on 1 devices.

Как видите, RAID1 (mdadm) не дает системе полностью сломаться и она продолжает работу на одном HDD-зеркале. В lspci SSD не пропадает, но как диск система его видит только после перезагрузки. Вылет NVME SSD возможен как вскоре после загрузки, так и через неделю аптайма. Какими могут быть причины?

Обновление 1

Сделал утилиту проверки температуры нвме. Измеряет каждую секунду. На момент вылета 41 градус и до того тишь и гладь часами напролет. Рост температуры вначале - из-за синхронизации нвме с жестким диском (восстановление RAID1 mdadm после прошлого вылета). Радиатор думаю купить, но вылеты, очевидно, не из-за температуры (температура разве что замедляет работу).

Скрины утилиты (то самое мое любимое визуальное программирование):

https://postimg.cc/mhZj0Db6

https://postimg.cc/jCr0Ny4n

Подфункция, вызывающая smartctl и возвращающая температуру после парсинга:

https://postimg.cc/Rqj3wsbQ

Вот что показывает lspci:

05:00.0 Non-Volatile memory controller: Realtek Semiconductor Co., Ltd. RTS5763DL NVMe SSD Controller (rev 01)

Контроллер ADATA XPG SX8100 4TB, вот такой: https://www.amazon.com/XPG-SX8100-Gen3x4-3000MB-ASX8100NP-4TT-C/dp/B08979DF1S



Последнее исправление: metaprog (всего исправлений: 1)

[710667.260705] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[710667.336682] nvme 0000:05:00.0: enabling device (0000 -> 0002)
[710667.336854] nvme nvme0: Removing after probe failure status: -19



Ну вот они твои причины - контроллер перестает отвечать ядру и ядро его катапультирует. Почему контроллер перестает отвечать ядру? Можно попробовать погадать. Поискать свою модель нвме - нет ли системного косяка с этой моделью, с чипами которые лепят на эту модель, если нету - не значит что это тебя не коснулось, это может быть дефект экземпляра. А может быть там есть новая фирмварь для твоего нвме? А еще нвме очень любят греться, тоже фактор. Что там с нагрузкой и датчика температуры на моменты отвалов? Поищи корреляции.

slowpony ★★★★★
()

Модель SSD и материнской платы?

anonymous
()

Ты реально настолько конченый шизик, что за три треда так и не указал модель SSD в топике, или я просто проглядел?

WitcherGeralt ★★
()
Ответ на: комментарий от anonymous

В одной из предыдущих тем писали, что он якобы боится деанонимизации. Если так, то поехавший какой-то.

anonymous
()
Ответ на: комментарий от slowpony

Сделал утилиту проверки температуры нвме. Измеряет каждую секунду На момент вылета 41 градус и до того тишь и гладь часами напролет. Рост температуры вначале - из-за синхронизации нвме с жестким диском (восстановление RAID1 mdadm после прошлого вылета). Радиатор думаю купить, но вылеты, очевидно, не из-за температуры (температура разве что замедляет работу).

Скрины утилиты (то самое мое любимое визуальное программирование):

https://postimg.cc/mhZj0Db6

https://postimg.cc/jCr0Ny4n

Подфункция, вызывающая smartctl и возвращающая температуру после парсинга:

https://postimg.cc/Rqj3wsbQ

Вот что показывает lspci:

05:00.0 Non-Volatile memory controller: Realtek Semiconductor Co., Ltd. RTS5763DL NVMe SSD Controller (rev 01)

Контроллер ADATA XPG SX8100 4TB, вот такой: https://www.amazon.com/XPG-SX8100-Gen3x4-3000MB-ASX8100NP-4TT-C/dp/B08979DF1S

metaprog
() автор топика
Ответ на: комментарий от metaprog

Контроллеры Realtek для SSD не то чтобы ужасны, но это совсем бюджетный сегмент. Плюс возможны проблемы именно с линуксом, у WD такое было, вроде починили.

anonymous
()
Ответ на: комментарий от anonymous

Контроллеры Realtek для SSD не то чтобы ужасны, но это совсем бюджетный сегмент

Да, он стоил 11 тысяч грн за 4 терабайта против 18 тысяч за другие бренды.

metaprog
() автор топика
Ответ на: комментарий от metaprog

Ну понятно, что дешевле. Могу только посоветовать гуглить сообщение из dmesg. Иногда есть параметры ядра, помогающие с некоторыми проблемами. Например, отключающие энергосбережение. Также можно написать в багзиллу ядра.

anonymous
()

Перегрев может много бед натворить …

anonymous
()
Ответ на: комментарий от metaprog

Сделал утилиту проверки температуры нвме.

Понятно …

anonymous
()
Ответ на: комментарий от anonymous

Например, отключающие энергосбережение

Уже отключил APST в параметрах ядра. Помогло убрать большую часть тормозов во время работы, но не помогает от случайных вылетов. Неадекватная работа NVME SSD в mdadm RAID 1 + cryptsetup, Debian 11 (комментарий)

metaprog
() автор топика
Ответ на: комментарий от anonymous

У меня на самсунге контроллер грелся так, что палец не возможно долго держать.

petyanamlt ★★★★
()
Ответ на: комментарий от anonymous

Реклама лишней не бывает, донаты сами не соберутся.

anonymous
()
Ответ на: комментарий от WitcherGeralt

Указал под гнётом общественного давления

Ага, по требованию SJW в твоем лице. Нихрена подобного. Исключительно в ответ на адекватный пост, где четко указано, что проблема может крыться в конкретной модели: Вылетает nvme ssd (комментарий)

metaprog
() автор топика
Ответ на: комментарий от metaprog

проблема может крыться в конкретной модели

ДА ЛАДНО? УДИВИТЕЛЬНО!

WitcherGeralt ★★
()
Ответ на: комментарий от anonymous

ADATA

Почему-то сразу про этот бренд и подумал.

greenman ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.