LINUX.ORG.RU

kernel: watchdog: Watchdog detected hard LOCKUP on cpu 0

 ,


0

2

Доброго времени суток.

Debian testing trixie, KDE Plasma 6.3.4, Wayland

i3-12100F, AMD Radeon RX 6400

На ядре 6.12.27 все работает отлично. Прилетело 6.12.30 (сегодня 6.12.31 - глюк остался) - система стала зависать почти сразу после логина. Загружаюсь опять с 6.12.27 - все работает стабильно.

Судя по логам, я так понимаю, что-то сломалось с amdgpu

июн 17 18:13:02 kernel: amdgpu 0000:03:00.0: [drm] *ERROR* dc_dmub_srv_log_diagnostic_data: DMCUB error - collecting diagnostic data
июн 17 18:13:09 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:10 kernel: amdgpu 0000:03:00.0: amdgpu: Dumping IP State
июн 17 18:13:12 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:14 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:19 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:21 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:23 kernel: rcu: INFO: rcu_preempt detected stalls on CPUs/tasks:
июн 17 18:13:23 kernel: rcu:         0-...0: (1 GPs behind) idle=e5a4/1/0x4000000000000000 softirq=16352/16353 fqs=1110
июн 17 18:13:23 kernel: rcu:         (detected by 3, t=5254 jiffies, g=18137, q=310 ncpus=8)
июн 17 18:13:23 kernel: Sending NMI from CPU 3 to CPUs 0:
июн 17 18:13:23 kernel: NMI backtrace for cpu 0
июн 17 18:13:23 kernel: CPU: 0 UID: 0 PID: 286 Comm: kworker/0:2 Not tainted 6.12.31-amd64 #1  Debian 6.12.31-1
июн 17 18:13:23 kernel: Hardware name: ASUS System Product Name/PRIME H610M-K D4, BIOS 3401 06/28/2024
июн 17 18:13:23 kernel: Workqueue: events amdgpu_device_delay_enable_gfx_off [amdgpu]
июн 17 18:13:23 kernel: RIP: 0010:delay_halt_tpause+0x1a/0x20
июн 17 18:13:23 kernel: Code: 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 f3 0f 1e fa 0f 1f 44 00 00 48 8d 04 37 31 c9 48 89 c2 48 c1 ea 20 66 0f ae f1 <c3> cc cc cc cc 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90 90
июн 17 18:13:23 kernel: RSP: 0018:ffffac75c0003c80 EFLAGS: 00000002
июн 17 18:13:23 kernel: RAX: 00000130df4c6010 RBX: 000000000000018d RCX: 0000000000000000
июн 17 18:13:23 kernel: RDX: 0000000000000130 RSI: 000000000000018d RDI: 00000130df4c5e83
июн 17 18:13:23 kernel: RBP: 00000130df4c5e83 R08: 0000000000002000 R09: 0000000000001640
июн 17 18:13:23 kernel: R10: ffffac76febc6d00 R11: ffffac75c0003c3c R12: 00000000000186a0
июн 17 18:13:23 kernel: R13: ffffac75c0003d00 R14: ffff8a4080d1d880 R15: 0000000000000000
июн 17 18:13:23 kernel: FS:  0000000000000000(0000) GS:ffff8a47dfa00000(0000) knlGS:0000000000000000
июн 17 18:13:23 kernel: CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
июн 17 18:13:23 kernel: CR2: 00007ffaa4de76d4 CR3: 00000001bf822006 CR4: 0000000000f72ef0
июн 17 18:13:23 kernel: PKRU: 55555554
июн 17 18:13:23 kernel: Call Trace:
июн 17 18:13:23 kernel:  <IRQ>
июн 17 18:13:23 kernel:  delay_halt+0x3c/0x70
июн 17 18:13:23 kernel:  dmub_srv_wait_for_idle+0x55/0x90 [amdgpu]
июн 17 18:13:23 kernel:  dc_dmub_srv_cmd_run_list+0x7b/0x160 [amdgpu]
июн 17 18:13:23 kernel:  dc_dmub_srv_drr_update_cmd+0x98/0x100 [amdgpu]
июн 17 18:13:23 kernel:  optc1_set_drr+0x4f/0x160 [amdgpu]
июн 17 18:13:23 kernel:  set_drr_and_clear_adjust_pending+0x32/0x50 [amdgpu]
июн 17 18:13:23 kernel:  dcn10_set_drr+0x87/0xe0 [amdgpu]
июн 17 18:13:23 kernel:  dc_stream_adjust_vmin_vmax+0x11f/0x200 [amdgpu]
июн 17 18:13:23 kernel:  dm_crtc_high_irq+0x2a3/0x300 [amdgpu]
июн 17 18:13:23 kernel:  amdgpu_dm_irq_handler+0x82/0x1f0 [amdgpu]
июн 17 18:13:23 kernel:  amdgpu_irq_dispatch+0xcf/0x230 [amdgpu]
июн 17 18:13:23 kernel:  amdgpu_ih_process+0x84/0x100 [amdgpu]
июн 17 18:13:23 kernel:  amdgpu_irq_handler+0x23/0x60 [amdgpu]
июн 17 18:13:23 kernel:  __handle_irq_event_percpu+0x47/0x190
июн 17 18:13:23 kernel:  handle_irq_event+0x38/0x90
июн 17 18:13:23 kernel:  handle_edge_irq+0x8b/0x230
июн 17 18:13:23 kernel:  __common_interrupt+0x3b/0x90
июн 17 18:13:23 kernel:  common_interrupt+0x80/0xa0
июн 17 18:13:23 kernel:  </IRQ>
июн 17 18:13:23 kernel:  <TASK>
июн 17 18:13:23 kernel:  asm_common_interrupt+0x26/0x40
июн 17 18:13:23 kernel: RIP: 0010:amdgpu_device_rreg.part.0+0x38/0xe0 [amdgpu]
июн 17 18:13:23 kernel: Code: 00 55 89 f5 53 48 89 fb 4c 3b a7 f8 08 00 00 73 1b 83 e2 02 75 09 f6 87 38 a2 04 00 10 75 77 4c 03 a3 00 09 00 00 45 8b 24 24 <eb> 12 4c 89 e6 48 8b 87 40 09 00 00 ff d0 0f 1f 00 41 89 c4 66 90
июн 17 18:13:23 kernel: RSP: 0018:ffffac75c094fd90 EFLAGS: 00000282
июн 17 18:13:23 kernel: RAX: 000001207ff115a3 RBX: ffff8a4095680000 RCX: 0000000000000000
июн 17 18:13:23 kernel: RDX: 0000000000000000 RSI: 000000000001629a RDI: ffff8a4095680000
июн 17 18:13:23 kernel: RBP: 000000000001629a R08: ffff8a4081cac380 R09: 0000000000000000
июн 17 18:13:23 kernel: R10: 0000000000000007 R11: 0000000000000000 R12: 0000000000000000
июн 17 18:13:23 kernel: R13: ffff8a4095680000 R14: ffff8a4095680000 R15: 0000000000000000
июн 17 18:13:23 kernel:  smu_cmn_send_smc_msg_with_param+0x148/0x440 [amdgpu]
июн 17 18:13:23 kernel:  smu_dpm_set_power_gate+0xf3/0x1a0 [amdgpu]
июн 17 18:13:23 kernel:  amdgpu_dpm_set_powergating_by_smu+0x85/0xf0 [amdgpu]
июн 17 18:13:23 kernel:  amdgpu_device_delay_enable_gfx_off+0x30/0x50 [amdgpu]
июн 17 18:13:23 kernel:  process_one_work+0x174/0x330
июн 17 18:13:23 kernel:  worker_thread+0x251/0x390
июн 17 18:13:23 kernel:  ? __pfx_worker_thread+0x10/0x10
июн 17 18:13:23 kernel:  kthread+0xcf/0x100
июн 17 18:13:23 kernel:  ? __pfx_kthread+0x10/0x10
июн 17 18:13:23 kernel:  ret_from_fork+0x31/0x50
июн 17 18:13:23 kernel:  ? __pfx_kthread+0x10/0x10
июн 17 18:13:23 kernel:  ret_from_fork_asm+0x1a/0x30
июн 17 18:13:23 kernel:  </TASK>
июн 17 18:13:23 kernel: INFO: NMI handler (nmi_cpu_backtrace_handler) took too long to run: 3.469 msecs
июн 17 18:13:24 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:28 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:34 PackageKit[3783]: uid 1000 is trying to obtain org.freedesktop.packagekit.system-sources-refresh auth (only_trusted:0)
июн 17 18:13:34 PackageKit[3783]: uid 1000 obtained auth for org.freedesktop.packagekit.system-sources-refresh
июн 17 18:13:36 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:38 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:43 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:45 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:48 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:49 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:51 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:13:56 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:14:04 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:14:07 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:14:08 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:14:10 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:14:11 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:14:13 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:14:22 kwin_wayland_wrapper[3080]: kwin_wayland_drm: The main thread was hanging temporarily!
июн 17 18:14:26 kernel: watchdog: Watchdog detected hard LOCKUP on cpu 0

Ну и после последней строчки все намертво вешается и помогает только выключение кнопкой. (правда не пробовал доступен ли в этот момент комп по сети - ноутбук далеко).

Собственно вопрос - просто ждать обновлений каких-то или может есть варианты решения проблемы? Я конечно понимаю, что тестинг - это тестинг, но это за все время первый глюк, который словил c момента установки в начале февраля.

★★★
Ответ на: комментарий от einhander

репорты в дебилиан слать вообще смысла мало. вся их инфраструктура вообще служит только одной цели - выкидывать пакеты из дистра за «FTBFS» на какой-нибудь экзотической архитектуре, причём репортить это может сам мейнтейнер, которого достало мейнтейнить. а уж репортить про ядро - бессмысленно втройне. если баг проявляется много у кого - в апстриме его уже с 90% вероятностью починили. а если только у тебя - хрен кому интересно и апстрим никто беспокоить не будет.

anonymous
()
Ответ на: комментарий от anonymous

если баг проявляется много у кого - в апстриме его уже с 90% вероятностью починили.

Ну хрен его знает, написать багрепорт много времени не надо. А шанс что починят есть. Если в апстриме починили, то могут обновить версию.

einhander ★★★★★
()
Ответ на: комментарий от anonymous

не, ну реально. по всему моему опыту с дебианом, репорты ещё могут как-то помочь при чисто дебиановских косяках. но в случае какого-то толстого апстрима типа ядра - баг либо уже пофиксен, либо апстрим убежал настолько далеко вперёд с обновлением мажорной версии, что с поддержкой дебиановского говна мамонта никто и заморачиваться не будет.

anonymous
()
Ответ на: комментарий от anonymous

6.12.33 действительно исправило проблему. Прилетело то на тестинг еще больше недели назад, но был в отпуске и компом не пользовался. Вот два дня тестю - проблем нет

deys ★★★
() автор топика
Ответ на: комментарий от ox55ff

Amd дрова как всегда не подводят. Как 10 лет назад вешали систему так и сейчас вешают.

А я помню «чудесные» дрова от штеуд с их постоянными GPU HANG.

anonymous
()
Ответ на: комментарий от anonymous

Уже 6.12.35. В репах тестинга 6.12.33. В стабл 6.12.32. Кстати (у меня дома и тот и тот стоят, но пользуюсь сейчас именно тестингом из-за 6й КДЕ). Давно не загружал стабл, но сегодня решил обновиться. Ситуация повторилась абсолютно как на тестинге было - уже во время обновления системы все сначала начало лагать, а потом зависло. Попробовал с 6.12.27 - все опять как часы работает. Как так только - всегда же Дебиан стабл был стаблом, а тут в стабл с таким косяком ядро пустили. На работе стоит стабл, но там Nvidia GT730. Вышел из отпуска, запустил обновление, 6.12.32 установилось. А вот модули для видюхи сами не стали собираться и после перезагрузки X-ы не запустились. Обычно после обновления ядра там просто соответствующие хидеры ядра доустанавливал и сборка модулей происходила, а тут нифига. Помогла только переустановка nvidia-tesla-470-kernel-dkms. Странно, что стабл уже не такой стабл стал и допустили такое кривое ядро

deys ★★★
() автор топика