LINUX.ORG.RU

Новый SSD (nvme) прибавляет 1 ошибку при каждом запуске компа

 , , ,


2

3

Купил новый SSD, и при каждом ребуте он прибавляет ровно 1 ошибку

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0         11     0  0x100f  0x4004      -            0     0     -
полный лог
sudo smartctl -a /dev/nvme0n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-5.18.0-3-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       SAMSUNG MZVLB256HBHQ-00000
Serial Number:                      S4GGNX0RC91284
Firmware Version:                   EXH7201Q
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 256,060,514,304 [256 GB]
Unallocated NVM Capacity:           0
Controller ID:                      4
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          256,060,514,304 [256 GB]
Namespace 1 Utilization:            88,786,948,096 [88.7 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 8c11c5d479
Local Time is:                      Wed Aug  3 16:59:34 2022 MSK
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x03):         S/H_per_NS Cmd_Eff_Lg
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     84 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.00W       -        -    0  0  0  0        0       0
 1 +     6.30W       -        -    1  1  1  1        0       0
 2 +     3.50W       -        -    2  2  2  2        0       0
 3 -   0.0760W       -        -    3  3  3  3      210    1200
 4 -   0.0050W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        34 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    425,685 [217 GB]
Data Units Written:                 279,397 [143 GB]
Host Read Commands:                 13,091,553
Host Write Commands:                1,869,139
Controller Busy Time:               11
Power Cycles:                       3
Power On Hours:                     3
Unsafe Shutdowns:                   1
Media and Data Integrity Errors:    0
Error Information Log Entries:      11
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               34 Celsius
Temperature Sensor 2:               41 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0         11     0  0x100f  0x4004      -            0     0     -

Погуглил, нашёл похожие темы, но не нашёл решение. Как исправить, кто знает? Говорят это что-то то ли с прошивкой SSD, то ли с версией kernel, то ли ещё что...

★★

Последнее исправление: devorg (всего исправлений: 1)

У меня в лог RAS тоже такое сыпется, забей, пишут что это не ошибки, а артефакты мониторинга на команды которые к ssd не относятся, либо на те которые эта модель не понимает, например всякие команды по управлению питанием шины.

Jameson ★★★★★
()
Ответ на: комментарий от devorg

Вроде пока нигде, я даже толком на обсуждение какое либо сослаться не могу, всюду одно-два упоминания о проблеме и реакция типа «забей», или «я мониторинг дисков в rasdaemon сам при его сборке отломал, чтобы он не мусорил». Разраб rasdaemon говорит что это не его проблемы фильтровать или игнорировать то что по каналам мониторинга ходит, раз там что то лишнее ходит пусть этим ядерные физики займутся. Надо бы как то грамотно дискуссию на эту тему в LKML поднять, лично я не потяну, да и меня не особо припекает.

PS. Извиняюсь за дезу, у меня в NVMe Log ошибок нет, а Disk Errors в ras-mc-ctl это не связанный с твоим баг.

Jameson ★★★★★
()
Последнее исправление: Jameson (всего исправлений: 2)

По-моему, такой команды в NVMe нет, поэтому накопитель возвращает ошибку. Возможно, в каком-то софте для мониторинга баг.

Похожий баг точно есть в collectd, но это вряд ли то же самое. Там число ошибок растёт каждые несколько секунд.

i-rinat ★★★★★
()

Стало интересно разобраться тоже, кто нибудь вообще может сказать, что это за команда такая, 0x100f? Где вообще можно список идентификаторов команд с расшифровкой подсмотреть?

Jameson ★★★★★
()
Последнее исправление: Jameson (всего исправлений: 1)
19 февраля 2023 г.

У меня то же самое. При каждом запуске компа стартует smartd, который сканирует и опрашивает nvme на предмет интересующего его функционала. Опрос осуществляется следующим образом - отправляет ему некоторые команды, если тот поддерживает - вернёт ок, если не поддерживает - вернёт ошибку. Т.е. это не ошибка диска, а ответ на некорректный запрос smartmon’а.

sa18
()