LINUX.ORG.RU

Отваливается ssd/ошибка nvme

 , , ,


0

1

Всем доброго времени суток. Прикупил себе INTEL SSD 7 и уже замучился с ним. Сначала оказалось, что он не полностью поддерживается моим ноутбуком аппаратно: версия чипсета ниже требуемой. Ладно, поставил загрузчик на прошлый hdd. Теперь, когда я работаю, спустя различные промежутки времени диск просто отваливается вместе со всей системой.

$ dmesg
...
[  258.742660] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[  258.796252] print_req_error: I/O error, dev nvme0n1, sector 186646824
[  258.796267] print_req_error: I/O error, dev nvme0n1, sector 186646832
[  258.796272] print_req_error: I/O error, dev nvme0n1, sector 186646840
[  258.796276] print_req_error: I/O error, dev nvme0n1, sector 186646848
[  258.796279] print_req_error: I/O error, dev nvme0n1, sector 186646856
[  258.796282] print_req_error: I/O error, dev nvme0n1, sector 186646864
[  258.796286] print_req_error: I/O error, dev nvme0n1, sector 186646872
[  258.796289] print_req_error: I/O error, dev nvme0n1, sector 186646880
[  258.796292] print_req_error: I/O error, dev nvme0n1, sector 186646888
[  258.796295] print_req_error: I/O error, dev nvme0n1, sector 186646896
[  258.822691] nvme 0000:05:00.0: enabling device (0000 -> 0002)
[  258.822878] nvme nvme0: Removing after probe failure status: -19
[  258.849535] EXT4-fs error (device nvme0n1p3): __ext4_get_inode_loc:4630: inode #2228225: block 8912928: comm ls: unable to read itable block
[  258.849556] Buffer I/O error on dev nvme0n1p3, logical block 0, lost sync page write
[  258.849560] EXT4-fs (nvme0n1p3): I/O error while writing superblock
[  258.942759] nvme nvme0: failed to set APST feature (-19)
...
Сначала я думал, что диск слишком прогрессивный и ждал новых версий ядра. Но новые версии выходят, а проблема не исчезает. Есть мысли по этому поводу?

ЗЫ:

$ uname -a
Linux Alyona 4.18.16-arch1-1-ARCH #1 SMP PREEMPT Sat Oct 20 22:06:45 UTC 2018 x86_64 GNU/Linux

PS2:

$ sudo badblocks -v -o badblocks_test.txt /dev/nvme0n1

Checking blocks 0 to 125034839
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found. (0/0/0 errors)

PS3:

$ sudo smartctl -a /dev/nvme0n1
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.18.16-arch1-1-ARCH] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       INTEL SSDPEKKW128G8
Serial Number:                      BTHH75130PMA128A
Firmware Version:                   001C
PCI Vendor/Subsystem ID:            0x8086
IEEE OUI Identifier:                0x5cd2e4
Controller ID:                      1
Number of Namespaces:               1
Namespace 1 Size/Capacity:          128,035,676,160 [128 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Tue Nov  6 15:33:14 2018 MSK
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         64 Pages
Warning  Comp. Temp. Threshold:     75 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     9.00W       -        -    0  0  0  0        0       0
 1 +     4.60W       -        -    1  1  1  1        0       0
 2 +     3.80W       -        -    2  2  2  2        0       0
 3 -   0.0450W       -        -    3  3  3  3     2000    2000
 4 -   0.0040W       -        -    4  4  4  4     6000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02, NSID 0x1)
Critical Warning:                   0x00
Temperature:                        32 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    600,927 [307 GB]
Data Units Written:                 600,245 [307 GB]
Host Read Commands:                 7,643,154
Host Write Commands:                19,189,649
Controller Busy Time:               106
Power Cycles:                       226
Power On Hours:                     194
Unsafe Shutdowns:                   45
Media and Data Integrity Errors:    72
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0

Read Error Information Log failed: NVMe Status 0x02

PS4

Memtest86+ ошибок не встречает

nvme_core.default_ps_max_latency_us=0 не помогает

обновление прошивки диска не помогло. Но диск стал отваливаться гораздо реже. Как правило это проиходит спустя короткий промежуток времени после запуска системы, либо вообще не происходит. Здесь либо новая версия ядра частично помогла, либо свежая прошивка диска.


версия чипсета ниже требуемой

Тоже была проблема с SSD. Купил тупо подешевле, установил, а трим в линукс не работает. Беглое гугление показало, что производитель зафигачил прошивку, которая не подходит под мою материнку, хотя она обычная в общем, а новых прошивок не будет, так как компания уже почила в бозе, так что ничего не осталось, кроме как сдать назад.

papin-aziat ★★★★ ()
Ответ на: комментарий от anonymous

Склоняюсь в эту же сторону. Попробую отключить...

Rot1 ()
Ответ на: комментарий от papin-aziat

Это какой-то заговор производителей) Как можно было предсказать ситуацию что в вашем, что в моем случае - не понятно. Версию чипсета в явном виде, например, нигде не публикуют. Модель разве что

Rot1 ()
Ответ на: комментарий от Rot1

А еще люди против белого списка совместимого оборудования )))

ты не написал про обновления прошивок на железках. Они последние?

mandala ★★★★ ()
Ответ на: комментарий от Rot1

В моем случае на заговор не потянет — просто срубили бабла по-быстрому и самоликвидировались, а прошивку зафигачили ту, что была под рукой, за то коробка и оформление диска были на высоте, я ещё удивился, что так дёшево, относительно других. Просто перед этим у меня был положительный опыт с каким-то недорогим Adapta(так вроде бы), и линукс на нем погонял отлично, и в макбук потом засунул, всё без нареканий: трим работает, скорость отличная.

papin-aziat ★★★★ ()

Хорошо, что не стал экономить на спичках и взял Samsung. Хотя тут скорей всего брак.

anonymous ()
Ответ на: комментарий от mandala

белого списка совместимого оборудования

а есть ссылка?

обновления прошивок

На материнку нет прошивок от производителя из достоверных источников. Поэтому страшно экспериментировать. На ssd проде бы нашел на сайте intel что-то. Буду пробовать...

Rot1 ()
Ответ на: комментарий от anonymous

Отключение энергосбережения параметром ядра nvme_core.default_ps_max_latency_us со значением 0 не помогло

Rot1 ()
Ответ на: комментарий от Jefail

Это из-за того, что диск отваливается постоянно с работающей системой, полагаю

Rot1 ()

возможно поможет обновление драйвера nvme в биосе, например для моей платы z77-ds3h вендор вообще скипает инжект этого драйвера. но есть умельцы которые запили поддержку nvme + boot-target nvme.
proof
для других плат пошукать можно тут

etwrq ★★★★ ()
Последнее исправление: etwrq (всего исправлений: 1)
Ответ на: комментарий от etwrq

возможно поможет обновление драйвера nvme в биосе, например для моей платы z77-ds3h вендор вообще скипает инжект этого драйвера.

Вот кстати да, у меня как-то было, что я купил nvme-диск, а он вообще никак на плате не заводился, хотя по спецификации модель была совместимая. Помогло обновление биоса платы до последней версии.

Khnazile ★★★★★ ()
Ответ на: комментарий от redby

Если ты мне, то в дампе смарта он есть -

Model Number:                       INTEL SSDPEKKW128G8
Серия 760p это

Rot1 ()
Ответ на: комментарий от Rot1

AMI BIOS?
https://www.win-raid.com/t871f50-Guide-How-to-get-full-NVMe-support-for-all-S...
но на свой страх и риск
но в случае отсутствия плашки для перепрошивки биос-чипов и паяльной станции, я не стал бы рисковать...

etwrq ★★★★ ()
Последнее исправление: etwrq (всего исправлений: 1)
Ответ на: комментарий от etwrq

запили

Вам, товарищи, вообще лень торопиться что ли?

anonymous ()
Ответ на: комментарий от mandala

А еще люди против белого списка совместимого оборудования

Потому, что уже есть стандарты на протоколы и интерфейсы. Я вижу, что устройства чаще глючат сами по себе, а не совместно.

Никто не будет против, если будет стандарт на QVL в прошивке по категориям с большим покрытием и разными переключаемыми логиками, пользовательскими списками, пополняемые простым подтверждением (или сложней, но по желанию). Все же пора уже предохранять dma, usb4 на носу.

boowai ★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.