LINUX.ORG.RU

Фриз после 'nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0xffff'

 , ,


0

1

Сегодня ноутбук стал полностью зависать (ctrl+alt+f*/sysrq не работают).

В логе после ребута пусто. Но поймал в через dmesg -w:

nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0xffff
nvme0: Does your device have a faulty power saving mode enabled?
nvme0: Try "nvme_core.default_ps_max_latency_us=0 pcie_aspm=off pcie_port_pm_off" and report a bug
# nvme list

Node                  Generic               SN                   Model
--------------------- --------------------- -------------------- ----------------------
/dev/nvme0n1          /dev/ng0n1            S64...70D            Samsung SSD 980 1TB

Namespace  Usage                      Format           FW Rev
---------- -------------------------- ---------------- --------
0x1        365.79  GB /   1.00  TB    512   B +  0 B   3B4QFXO7

Началось внезапно, никаких обновлений не делал.

smartctl:

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        33 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    3,692,348 [1.89 TB]
Data Units Written:                 13,153,527 [6.73 TB]
Host Read Commands:                 54,650,570
Host Write Commands:                272,278,849
Controller Busy Time:               687
Power Cycles:                       2,491
Power On Hours:                     1,224
Unsafe Shutdowns:                   8
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               33 Celsius
Temperature Sensor 2:               35 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged

Судя по https://semiconductor.samsung.com/consumer-storage/support/tools/ - прошивка последняя.

Сталкивался кто-то с подобным поведением?

★★★★★
Ответ на: комментарий от firkax

Видел, но пока не пробовал. Сомневаюсь что поможет: работало без этих опций больше года, перед возникновением проблемы обновлений ядра не было.

Единственной что делал за несколько часов до - продувал из баллона клавиатуру.

Кажется что PCI_STATUS=0xffff значит что устройство совсем отвалилось. Гугл часто показывает сообщения на форуме где PCI_STATUS=0x10

Сейчас разобрал, вытащил ssd, протер контакты с изопропанолом и обратно собрал. Посмотрю будет ли опять воспроизводиться. Если будет - потестирую с другим ssd.

Для nvme нормально что при отвале вся система колом встает вместо того чтобы на любую команду писать что-то типа ls: command not found?

Tanger ★★★★★
() автор топика
Ответ на: комментарий от Tanger

Ну, возможно появилась какая-то проблема в накопителе, а опции помогут её подкостылить.

А ещё может быть что накопитель вообще ни при чём, отваливается материнка, а накопитель - жертва и ты просто успел увидеть про него.

firkax ★★★★★
()
Ответ на: комментарий от Tanger

Именно эти опции помогут. У меня тоже самое происходит на Huawei Matebook X Pro.

У меня в логе было так

[  443.304757] nvme nvme0: using unchecked data buffer
[  504.908113] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[  504.908130] nvme nvme0: Does your device have a faulty power saving mode enabled?
[  504.908135] nvme nvme0: Try "nvme_core.default_ps_max_latency_us=0 pcie_aspm=off pcie_port_pm=off" and report a bug
[  504.937037] nvme 0000:02:00.0: enabling device (0000 -> 0002)
[  504.937251] nvme nvme0: Disabling device after reset failure: -19
Jefail ★★★★★
()
Последнее исправление: Jefail (всего исправлений: 1)