LINUX.ORG.RU

Ошибки в smart для SSD

 ,


0

3

Что-то у меня появились ошибки, когда в очередной раз проверял smart SSD. Проверял так

smartctl  -a /dev/nvme1n1
Выдает такое
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        35 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    610,575 [312 GB]
Data Units Written:                 809,901 [414 GB]
Host Read Commands:                 3,288,924
Host Write Commands:                726,307
Controller Busy Time:               10
Power Cycles:                       65
Power On Hours:                     8
Unsafe Shutdowns:                   1
Media and Data Integrity Errors:    0
Error Information Log Entries:      84
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               35 Celsius
Temperature Sensor 2:               32 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0         84     0  0xd001  0x4004      -            0     0     -


SSD - 1000 ГБ SSD M.2 накопитель Samsung 970 EVO Plus, прошивку не обновлял. Конкретно меня волнует эта часть
Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0         84     0  0xd001  0x4004      -            0     0     -


Ядро 6.1.77, файловая система ext4. Эти ошибки критичны?

★★★★★

Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)

Посмотрите их, у меня их 64 и они все одинаковые:

sudo nvme error-log /dev/nvme1n1
 Entry[63]   
.................
error_count	: 0
sqid		: 0
cmdid		: 0
status_field	: 0(Successful Completion: The command completed without error)
phase_tag	: 0
parm_err_loc	: 0
lba		: 0
nsid		: 0
vs		: 0
trtype		: The transport type is not indicated or the error is not transport related.
csi		: 0
opcode		: 0
cs		: 0
trtype_spec_info: 0
log_page_version: 0
.................
dmitry237 ★★★
()
Последнее исправление: dmitry237 (всего исправлений: 1)
Ответ на: комментарий от dmitry237

Одна такая

 Entry[ 0]
.................
error_count     : 84
sqid            : 0
cmdid           : 0xd001
status_field    : 0x2002(Invalid Field in Command: A reserved coded value or an unsupported value in a defined field)
phase_tag       : 0
parm_err_loc    : 0xffff
lba             : 0
nsid            : 0
vs              : 0
trtype          : The transport type is not indicated or the error is not transport related.
csi             : 0
opcode          : 0
cs              : 0
trtype_spec_info: 0
log_page_version: 0

Все остальные такие

.................
 Entry[ 1]
.................
error_count     : 0
sqid            : 0
cmdid           : 0
status_field    : 0(Successful Completion: The command completed without error)
phase_tag       : 0
parm_err_loc    : 0
lba             : 0
nsid            : 0
vs              : 0
trtype          : The transport type is not indicated or the error is not transport related.
csi             : 0
opcode          : 0
cs              : 0
trtype_spec_info: 0

vbcnthfkmnth123 ★★★★★
() автор топика
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Посмотрел на старой ssd, которая уже многое пережила, и тоже нашел ошибки, как ваша Entry[ 0] Но и smart-log выглядит не очень:

$ sudo nvme smart-log /dev/nvme0n1

Smart Log for NVME device:nvme0n1 namespace-id:ffffffff
critical_warning			: 0
temperature				: 32 °C (305 K)
available_spare				: 100%
available_spare_threshold		: 10%
percentage_used				: 5%
endurance group critical warning summary: 0
Data Units Read				: 33437637 (17.12 TB)
Data Units Written			: 40865346 (20.92 TB)
host_read_commands			: 466465394
host_write_commands			: 650741449
controller_busy_time			: 1509
power_cycles				: 8349
power_on_hours				: 2683
unsafe_shutdowns			: 38
media_errors				: 0
num_err_log_entries			: 26073
Warning Temperature Time		: 0
Critical Composite Temperature Time	: 0
Temperature Sensor 1           : 32 °C (305 K)
Temperature Sensor 2           : 36 °C (309 K)
Thermal Management T1 Trans Count	: 0
Thermal Management T2 Trans Count	: 0
Thermal Management T1 Total Time	: 0
Thermal Management T2 Total Time	: 0
dmitry237 ★★★
()
Ответ на: комментарий от dmitry237

У меня это для SSD выглядит так:


bash-5.1# nvme smart-log /dev/nvme1n1
Smart Log for NVME device:nvme1n1 namespace-id:ffffffff
critical_warning                        : 0
temperature                             : 34 °C (307 K)
available_spare                         : 100%
available_spare_threshold               : 10%
percentage_used                         : 0%
endurance group critical warning summary: 0
Data Units Read                         : 610575 (312.61 GB)
Data Units Written                      : 809901 (414.67 GB)
host_read_commands                      : 3288928
host_write_commands                     : 726307
controller_busy_time                    : 10
power_cycles                            : 65
power_on_hours                          : 8
unsafe_shutdowns                        : 1
media_errors                            : 0
num_err_log_entries                     : 84
Warning Temperature Time                : 0
Critical Composite Temperature Time     : 0
Temperature Sensor 1           : 34 °C (307 K)
Temperature Sensor 2           : 32 °C (305 K)
Thermal Management T1 Trans Count       : 0
Thermal Management T2 Trans Count       : 0
Thermal Management T1 Total Time        : 0
Thermal Management T2 Total Time        : 0

vbcnthfkmnth123 ★★★★★
() автор топика
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Одна такая

Не выглядит как проблема.

Все остальные такие

Такими у этих самсунгов всегда завален лог.

Если прошивка не последняя, то стоит обновить, это не сложно.

anonymous
()
Ответ на: комментарий от greenman
nvme device-self-test /dev/nvme0 -s 2h # Start a extended device self-test operation
nvme device-self-test /dev/nvme0 -s 1h # Start a short device self-test operation

https://unix.stackexchange.com/questions/709259/i-dont-see-results-of-a-self-test-of-an-ssd-in-smartctl

или man mvme

Странно, что поиск по лору (через гугл site:linux.org.ru "device-self-test") практически не даёт результатов.

greenman ★★★★★
()
Последнее исправление: greenman (всего исправлений: 1)

Error Information Log Entries: 84

Это не особо критично. Этот счётчик растёт, если привод получил некорректную команду. Например, nvme плагин для collectd на некоторых накопителях этот счётчик увеличивает раз в десять секунд.

Media and Data Integrity Errors: 0

Вот если этот счётчик начнёт расти, то тогда плохо.

i-rinat ★★★★★
()
Ответ на: комментарий от dmitry237

у меня их 64 и они все одинаковые

Этот лог сбрасывается, когда пропадает питание. То, что ты видишь, это пустые записи, потому что вместо кодов ошибок — нули.

i-rinat ★★★★★
()