LINUX.ORG.RU

Как отладить зависание ядра?

 , , , ,


0

1

Обновился на Lubuntu 22.04.2 с 20.04.6.
Стало виснуть всё колом, часто. Как правило в простое, но бывает и прямо ведёшь мышку - она медленнее, медленнее, и всё.
Бывает успеваешь язык переключить (пропадает Scroll lock подсветка). Или в консоль по ctrl+alt+F1 (тоже пропадает, но консоль не отрисовывается).
Грешу на видюху RX5700 XT. Менял дрова с amdgpu на с оффсайта - не помогло. Пробовал выключать виртуалки (virtualbox) - не помогло.
Не запускать Хром - не помогло.
Запускать браузеры c --disable-gpu (в самом начале, т.к. с включенной вешались вообще быстро при просмотре видео, минут 5-10, и опять вотбл***!!!).
Алсо, в SMPlayer тоже сделал отрисовку через X11 - перестал вешаться.
Вис Xscreensaver при запуске или длительном простое, даже с blank screen - удалил.
Есть ещё Телеграмм, сейчас ему ускорение выключил.
Самый прикол, что в играх зависаний нет, в Doom Eternal можно бегать часами. Только в Иксах (wayland удалил сразу же, pipewire чуть позже, на него тоже думал).
Окружение - LXDE.
Ядра менял от 4го до 6.5 (сейчас стоит).
Opera вернул на старую версию - 88 (Opera One хочет композитинг, пока не вышла версия, которая отключает тени, если его нет и они рисуются чёрными квадратами. Хотя Хром уже так умеет).
Что случилось с линуксом? Какие ещё инновации в него внесли, что всё вешается?
В логах нет нифига, как будто такой клин, что даже записаться ничего не успевает.
Температуры в норме, вентиляторы все крутятся.

sudo inxi -G
Graphics:
  Device-1: AMD Navi 10 [Radeon RX 5600 OEM/5600 XT / 5700/5700 XT]
    driver: amdgpu v: kernel
  Display: server: X.Org v: 1.21.1.4 driver: X: loaded: amdgpu,ati
    unloaded: fbdev,modesetting,radeon,vesa gpu: amdgpu
    resolution: 1920x1080~60Hz
  OpenGL: renderer: AMD Radeon RX 5700 XT (NAVI10 DRM 3.54.0
    6.5.0-26-generic LLVM 9.0.0)
    v: 4.5 Mesa 19.3.4

Как такое отлаживать?



Последнее исправление: c0unt0 (всего исправлений: 4)

Ответ на: комментарий от MagicMirror

Наглухо виснет. Даже REISUB не срабатывает. journalctl -o short-precise -k -b -1 и journalctl –boot=-1
Тоже смотрел. Вот например:

мар 25 14:39:43.296874 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:39:47.368855 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:13.200843 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:36.880877 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:40.952835 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:49.160834 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:58.304875 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:41:06.996861 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:41:21.136867 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:42:05.740843 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:42:14.116854 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 16:38:09.586915 warp kernel: perf: interrupt took too long (2530 > 2500), lowering kernel.perf_event_max_sample_rate to 79000

могут быть другие сообщения, но это обычный движ, кабеля по 5 метров, потом хабы и нагрузка.

мар 25 16:50:17 warp root[78527]: Setting Provider_1 as main channel!
мар 25 16:51:00 warp root[78632]: node-1 Down!
мар 25 16:51:03 warp root[78634]: node-2 Down!
мар 25 16:51:05 warp root[78636]: Failed Rastr!
мар 25 16:51:08 warp root[78655]: Failed Beeline! disabled
мар 25 16:51:08 warp root[78656]: Rastr status = 0
мар 25 16:51:51 warp root[78824]: node-1 Down!
мар 25 16:51:54 warp root[78849]: node-2 Down!
мар 25 16:51:56 warp root[78869]: Failed Rastr!
мар 25 16:52:00 warp root[78890]: Failed Beeline! disabled
мар 25 16:52:00 warp root[78891]: Rastr status = 0
мар 25 16:52:01 warp audit[78897]: USER_ACCT pid=78897 uid=0 auid=4294967295 ses=4294967295 msg='op=PAM:accounting grantors=pam_permit acct="xxxxx" exe="/usr/sbin/cron" hos>
мар 25 16:52:01 warp audit[78897]: CRED_ACQ pid=78897 uid=0 auid=4294967295 ses=4294967295 msg='op=PAM:setcred grantors=pam_permit,pam_ecryptfs acct="xxxxx" exe="/usr/sbin/>
мар 25 16:52:01 warp audit[78897]: SYSCALL arch=c000003e syscall=1 success=yes exit=4 a0=7 a1=7ffcbf452f70 a2=4 a3=0 items=0 ppid=2234 pid=78897 auid=1000 uid=0 gid=0 euid=>
мар 25 16:52:01 warp audit: PROCTITLE proctitle=2F7573722F7362696E2F43524F4E002D66002D50
мар 25 16:52:01 warp CRON[78897]: pam_unix(cron:session): session opened for user xxxxx(uid=1000) by (uid=0)
мар 25 16:52:01 warp audit[78897]: USER_START pid=78897 uid=0 auid=1000 ses=207 msg='op=PAM:session_open grantors=pam_loginuid,pam_env,pam_env,pam_permit,pam_umask,pam_unix>
мар 25 16:52:01 warp CRON[78898]: (xxxxx) CMD (export DISPLAY=:0.0 && export XAUTHORITY=/home/xxxxx/.Xauthority && /usr/local/bin/build-ready-notify)
мар 25 16:52:04 warp audit[78897]: CRED_DISP pid=78897 uid=0 auid=1000 ses=207 msg='op=PAM:setcred grantors=pam_permit,pam_ecryptfs acct="xxxxx" exe="/usr/sbin/cron" hostna>
мар 25 16:52:04 warp audit[78897]: USER_END pid=78897 uid=0 auid=1000 ses=207 msg='op=PAM:session_close grantors=pam_loginuid,pam_env,pam_env,pam_permit,pam_umask,pam_unix,>
мар 25 16:52:04 warp CRON[78897]: pam_unix(cron:session): session closed for user xxxxx
мар 25 16:52:43 warp root[79185]: node-1 Down!
мар 25 16:52:46 warp root[79222]: node-2 Down!
мар 25 16:52:48 warp root[79224]: Failed Rastr!
мар 25 16:52:52 warp root[79266]: Failed Beeline! disabled
мар 25 16:52:52 warp root[79267]: Rastr status = 0
мар 25 16:53:35 warp root[79359]: node-1 Down!
мар 25 16:53:38 warp root[79361]: node-2 Down!
мар 25 16:53:40 warp root[79363]: Failed Rastr!

Тоже всё как обычно. ОЗУ никто не жрёт, сейчас 7 ГБ занято. Вот такое ещё бывает (а бывает и работает) при запуске wine:

C:\windows\system32\explorer.exe: symbol lookup error: /usr/lib/x86_64-linux-gnu/libvulkan_radeon.so: undefined symbol: amdgpu_query_video_caps_info
00e4:err:winediag:nodrv_CreateWindow Application tried to create a window, but no driver could be loaded.
00e4:err:winediag:nodrv_CreateWindow L"The explorer process failed to start."

У StartWine свой vulkan, игрушки через него.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 2)
Ответ на: комментарий от c0unt0

Даже REISUB не срабатывает.

У меня тоже не срабатывает. Потому что выключен. А у тебя включен?

Заранее подключись по ssh и запусти отображение логов с htop. В момент зависания смотри чё произошло. Скорее всего обойдётся без тормозной консоли на ttyS0.

MagicMirror
()
Ответ на: комментарий от MagicMirror

Включен. Сейчас в 1ю консоль зашёл, C-A-SysRq-R сделал, C-A-SysRq-W. Ребутать не стал )) И так уже наперезагружался ))
Но совет Ваш попробую.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 3)

Может запустить какой нибудь скрипт, который будет каждые 2с сбрасывать на диск новый dmesg? Если ядро живо и диски не ложатся - информации будет всяко больше чем от журналда. Если нет - на том дистрибутиве без шансов что то собрать.

А, ну и мемтест прогнать. В первую очередь. А ещё всякие бусты и хитрые политики андервольта на всякий случай поотключать.

kirill_rrr ★★★★★
()
Последнее исправление: kirill_rrr (всего исправлений: 1)

Напряжение питания проца/памяти/видимокарты не понижал? Блок питания вывозит? Стресс тесты гонял? Всё это может повесить систему как нечего делать.

anonymous
()
Ответ на: комментарий от kirill_rrr

Чем скрипт раз в две секунды (почему не dmesg -w?) быстрее то? Если уж совсем докапываться, то его результаты только после следующей загрузки, а по ssh сразу.

Разве что у меня искажение, что компьютер не единственный и sshd заранее запущен.

MagicMirror
()
Ответ на: комментарий от MagicMirror

Отсутствие связи по ssh не гарантирует именно кернел паник. А внезапное прекращение записи данных на диск - даёт крайне высокую вероятность. Особенно если нет симптомов отвала диска.

kirill_rrr ★★★★★
()

Попробуй с какого-нибудь(причем другого дистрибутива, не того что установлен) LiveCD загрузиться и поработать с него. Будет зависать или нет. Так можно исключить проблемы с железом(если не будет зависать).

Loki13 ★★★★★
()
Ответ на: комментарий от Khnazile

Сервер на 2*Xeon 2697 v3. С локом Турбобуста под нагрузкой, но её нет, сейчас сижу на Chrome (Опера тоже иногда вещается, видимо не до конца отключено 3d-ускорение, нашёл ключ как отключить skia-renderer, тестирую. Из включенного на opera://gpu осталось только MultipleRasterThreads=Enable.
Проблемы по железу исключены, пользуюсь не 1й год. Всё навернулось с обновлением. Единственно, флаги загрузки ядра. Они и раньше работали, и ядра на которых работало подкидывал. Но на всякий:

cat /proc/cmdline
BOOT_IMAGE=/boot/vmlinuz-6.5.0-26-generic root=UUID=c10bb88b-eafc-4e78-9591-911fcdc11ba9 ro acpi_osi=Linux vmalloc=1024MB acpi_backlight=vendor rcutree.rcu_idle_gp_delay=1 acpi=force usbcore.autosuspend=-1 pcie_port_pm=off intel_pstate=enable processor.ignore_ppc=1 acpi_osi=Linux apparmor=0 intel_iommu=off video=HDMI-A-1:e video=VGA-0:e noirqdebug noibrs noibpb nopti nospectre_v2 nospectre_v1 l1tf=off nospec_store_bypass_disable no_stf_barrier mds=off tsx_async_abort=off mitigations=off security= tsx=on text

Вчера бегал в Doom Eternal несколько часов, выкрутил настройки все на «Кошмар» (без DLSS и т.п.), занято VRAM было 6 GB, артефактов и зависаний нет. Т.к. вешают именно Х-овые приложения, и даже при простое (видео на паузе).

c0unt0
() автор топика
Ответ на: комментарий от superuser

У Lubuntu видимо нет )) Вообще сейчас планы сделать бэккап текущей ситуации и осенью-зимой на 24.04 перейти, как созреет. А пока на стабильной 20.04. Благо разницы для меня нет, приложения те же, внешний вид DE/WM свой, ядро и 5е всё видит.

c0unt0
() автор топика
Ответ на: комментарий от MagicMirror

В-общем что выявилось на текущий момент:
Вешает всё, что использует видеокарту для отрисовки:
Браузеры (отключение в Хроме –disable-gpu помогло, можно сидеть десятки часов), Телеграмм (отключение ускорения в настройках + автопроигрывания видео помогло при прокрутке, специально поставил бета-версию, чтобы убедиться. Она грохнулась и написала:

OpenGL: Disabled
OpenGL Renderer: [not-initialized]

Т.е. таки отключил.
Виртуальные машины. Чтобы снять подозрение с проверенного дистра Virtualbox 6й версии (7я сыровата ИМХО и тоже вешает), поставил virt-manager, перенёс туда Win10, которая всегда запущена была (для работы, не подумайте чего, я не из этих), и через часа 2-3 она вклинила.
/dev/kvm - оно ведь тоже на уровне ядра. Так что сижу без виртуалок. Если запустить, быстро сделать что нужно и выключить - удаётся избежать клина. Оставишь висеть - опять идти питание дёргать и все пароли вводить. Я даже уже не матерюсь, привык.
Поставил 11ю винду, ради теста стоит в virt-manager. Часов 5 уже работает. С проверенной 10-кой, которая работала несколько лет, и ничего туда не ставилось, такое бы не прокатило. В течение часа-двух бы зависла.
Есть идея, что если дать системе композитинг, который я выпилил, а разрабы новой Оперы и Хрома (и GTK, да) на него рассчитывали, то будет ОК. Проверю и эту теорию.
ssh повесил с dmesg -w на тестовый стенд на всякий. Но дело явно софтовое.
glxgears оставлял крутить, на случай если видюха дохнет из-за снижения параметров (энергосбережение и сильно низкое напр. питания), не помогло. Самый быстрый способ повесить - запустить Opera со включенным GPU или видеоплеер (smplayer/vlc) с выводом через opengl (раньше работало).
P.S. видюху менял на 5500XT, не помогло. Современных nvidia нет, только legacy какая-то валяется. Могу и её воткнуть.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 3)
Ответ на: комментарий от c0unt0

Проблемы по железу исключены, пользуюсь не 1й год. Всё навернулось с обновлением.

Ну почему же исключены, у меня тоже висаки видеокарты nv 9200m начались после обновления с дебиана 10 до 11. И тут ничего не сделать, кроме отката всего дистра.

kirill_rrr ★★★★★
()
Последнее исправление: kirill_rrr (всего исправлений: 1)
Ответ на: комментарий от c0unt0

Я подобное поведение видел, когда pcie-шина начинала забиваться мусорными пакетами. Тоже картинка начинала лагать, пока все не зависало. Но в том случае виноват был дохлый процессор ryzen (распространенная проблема), а amdgpu хоть и триггерил ситуацию, но это было лишь следствием интенсивного обмена по шине. У интел я про наличие таких проблем не слышал, скорее всего что-то другое.

Ах да, если настроить выхлоп ядра на последовательный порт, то иногда прямо перед зависанием можно было увидеть сообщения, что скорость порта изменена до минимально возможной.
А еще, если при первых признаках тормозов быстренько положить систему в suspend по горячей клавише, то был велик шанс, что после выхода из спячки она продолжит нормально работать еще какое-то время.

Khnazile ★★★★★
()
Последнее исправление: Khnazile (всего исправлений: 1)
Ответ на: комментарий от Khnazile

После удаления va-api и vdpau:
Opera не висла 11 часов. Так что видимо какое-то ускорение было в ней недовыключено.
Проверка, что ускорение вынесено - не работает glxgears.
На виртуалке с qemu (чистая Lubuntu 22.04) смог вызвать «принудительное зависание» - быстро дёргал туда-сюда окно featherpad-a (на qt) секунд 15 +/-.
После перезагрузки перед появлением lightdm (переключение из консоли в графику) заметен «битый» кадр (мусор из видеопамяти). Но это может быть просто особенность переключения режима, или драйверов. Например как-то видел кадр с «Рабочим столом» и открытым софтом, который был при зависании.

c0unt0
() автор топика
Ответ на: комментарий от anonymous

Попробую поменять на днях. Отпишусь после нескольких дней мониторинга, или если не поможет. Если видюхе дёрнуть питание - вполне может и зависнуть.

c0unt0
() автор топика
Ответ на: комментарий от superuser

Сделал у них баг: https://gitlab.freedesktop.org/mesa/mesa/-/issues/11056

Там более подробнее, про то, что успел сделать на данный момент (может что забыл даже).
Пока не отвечают. Может через год ответят, знаю я багзиллы ))))
Написал, что виснут браузеры, но и медиа-плеер тоже виснет (SMPlayer, vlc). С отключенным ускорением само собой. Через что выводить пока играю.
И Телеграмм иногда, тоже с отключенным, при картинке на полном экране (видел такой баг у него), или при пропадании управления (видео на полном экране) - и такой видел. В-общем как по минном полю. Хз что сделать, чтобы эта друа не висла )) Может зависнуть ночью, на xscreensaver, blank screen - снёс, или не зависнуть.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 5)