LINUX.ORG.RU

Ядро крашится на ноутбуке без каких-либо полезных journalctl логов

 , , , ,


0

2

Всем привет на форуме, уже заходил к вам за помощью 2 года назад с примерно похожей проблемой.

Проблема такова: в рандомный момент (более чем час после использования линукса, с несколькими systemctl suspend), ноутбук просто намертво зависает. SysRq не работает, только зажатие кнопки выключения.

Железо: Nvidia MX450, i7 1165G7, 16Gb DDR4 RAM, 32Gb swap.

Драйвера тестил: nvidia-575xx-dkms, nvidia-550xx-dkms, nvidia-580xx-dkms, nvidia-open 590xx, с pacman и с yay

Всего удалось собрать три лога с трёх крашей: https://gist.github.com/saintfts/ca4e3f7e89a872d81e094f4ebcb1e8f1

  1. Вроде как произошёл пока я лазил в браузере.
  2. Когда тестил базовый template flutter’а. Запустил flutter run, через полсекунды зависание системы намертво
  3. Зажал Space на 3 секунды, пока через tab была выбрана кнопка в приложении flutter (базовый темплейт, но с логикой just_audio. Кнопка - загрузить путь к файлу и запустить песню) - фриз

Прогонял память Memtest’ом несколько раз, всё работает отлично. Винда 10/11 работали безотказно.

Буквально 2 года подряд пытался сам найти причину этих крашей. Первая проблема со слишком частыми крашами и отвалами видеокарты ушла после того, как я сделал acpi_mask_gpe=0x6E в cmdline моего бутлоадера (оказалось, что на проприетарных дровах система страдала от «acpi storm» - счётчик в /sys/firmware/acpi/interrupts/gpe6E переваливал за несколько тысяч после вытыкания и втыкания кабеля зарядки в ноут. Теперь такая фигня.

Спасибо всем заранее! Я действительно старался решить проблему, но у меня уже сил нет.

  1. Диагностика нвидия виновата или нет. Отруби дискретку и проверь на зависания:
modprobe.blacklist=nvidia,nvidia_drm,nvidia_modeset
  1. Чот пахнет как проблема Panel Self Refresh (судя по гуглу Tiger Lake этим грешит). Чекай (kernel cmd):
i915.enable_psr=0

Если уже вырублено, то

i915.enable_psr=0 i915.enable_dc=0
  1. Ну или тебе в штаны срёт PCIe:
pcie_aspm=off

Судя по тому, что отваливается при flutter - то он скорее всего рендерился через VK/OGL - то есть скорее всего таки видюха. Можешь попробовать понапрягать через 4К в ютубе.

P.S. Ещё можно поковырять режимы энергоуправления nvidia, но там надо прям загуглить, там в modprobe надо файл конфига задать и чот типа

options nvidia NVreg_DynamicPowerManagement=0x00

туда плюнуть.

PPP328 ★★★★★
()
Ответ на: комментарий от PPP328

Спасибо за сообщение! Я написал огромное сообщение касаемо настроек, которые ты предложил, но эта за**па зависла буквально перед тем, как отправить сообщение. Но я заметил странность

!!!И сейчас самое важное!!! В Ghostty перед крашем я не мог скопировать ничего из терминала при помощи Ctrl+Shift+C, хотя эта комбинация, обычно, безотказно работает. НО ОНА НЕ ПРОСТО НЕ РАБОТАЛА! Нажатие Ctrl+Shift+C вставляло в буфер текущей строки какой-то КОД вместо копирования текста, что-то вроде ~42u28 или типа того. И я попробовал несколько раз, и всегда вставлялся один и тот же код, как будто в неовиме/виме нажимаю неопределённую последовательность клавиш.

И KDUMP ТОЖЕ НЕ ЗАПУСТИЛСЯ, от слова совсем, хотя когда я делаю комбинацию SysRq «PrtSc + C», kdump работает исправно и без нареканий.

Нет, он не запустился в фоне, ибо у меня на диске стоит шифрование на пароль, и мне надо вводить его каждый раз при запуске kdump’а, и он бы не смог чисто теоритически что-то записать на него.

Но за 3 минуты до краша комбинация Ctrl+Shift+C точно работала исправно, а тут даже не было pop-up’a «Copied to clipboard». Я даже вставил в то самое сообщение которое я писал сюда вывод из /proc/driver/nvidia/params, и оно исправно отобразилось

saintfts
() автор топика
Ответ на: комментарий от saintfts

Похоже на баг в intel драйвере (они те еще рукожопы по жизни). Как вариант - попытать счастье на lts ядре.

nvidia-drm.modeset=1 - это тоже нужно.

Дело не в nvme скорее всего, у меня были проблемы на одном ноутбуке, там в логах другие сообщения, у тебя явно графическая система колом встает.

Jefail ★★★★★
()
Ответ на: комментарий от mky

Даже kdump не запускается, sysrq не реагирует от слова совсем. Логи просто обрываются. Очень сомневаюсь, что ноут в таком состоянии может хоть что-то одуплить. Забыл упомянуть, что в этот момент он тёплый и не перестаёт таковым быть спустя некоторое время. Вентиляторы из-за этого работают на умеренных оборотах.

saintfts
() автор топика
Ответ на: комментарий от mky

Потому что у меня рушился и рушится до сих пор nvme диск на Huawei ноутбуке.

Там в логах примерно такое

[  443.304757] nvme nvme0: using unchecked data buffer
[  504.908113] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[  504.908130] nvme nvme0: Does your device have a faulty power saving mode enabled?
[  504.908135] nvme nvme0: Try "nvme_core.default_ps_max_latency_us=0 pcie_aspm=off pcie_port_pm=off" and report a bug
[  504.937037] nvme 0000:02:00.0: enabling device (0000 -> 0002)
[  504.937251] nvme nvme0: Disabling device after reset failure: -19

А у ТС по логам валится i915.

Jefail ★★★★★
()
Ответ на: комментарий от Jefail

У ТС по логам просто варнинги от i915, много у кого такие варнинги не приводят к зависанию системы. В случае ТС, может, они от того, что он в typeC воткнул крутой usb-хаб с DP/HDMI портом, активирующим USB DP alt mode...

рушился и рушится до сих пор nvme

И логи ядра на него записывались? Если у ТС просто отпадает его «супернадёжный» SSD HEORIADY, то по логам тоже будет внезапное прекращение сообщений.

mky ★★★★★
()