LINUX.ORG.RU

Что делать при зависшем gui-gpu?

 


0

1

Ubuntu 16.04 с gpu amd rx-550. Изображение на мониторах замерло, чаты не обновляются. На клаву-мышь реакции нет. ssh и samba работают и доступны. Что можно потыкать чтобы восстановить полноценную работу без ребута машины?

[10150.855713] INFO: task kworker/u16:0:11242 blocked for more than 120 seconds.
[10150.855717]       Not tainted 4.15.0-60-generic #67~16.04.1-Ubuntu
[10150.855718] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[10150.855720] kworker/u16:0   D    0 11242      2 0x80000000
[10150.855733] Workqueue: events_unbound commit_work [drm_kms_helper]
[10150.855734] Call Trace:
[10150.855739]  __schedule+0x3d6/0x8b0
[10150.855741]  ? __switch_to_asm+0x41/0x70
[10150.855742]  schedule+0x36/0x80

надо так понимать, что это не иксы

★★★★★

Последнее исправление: targitaj (всего исправлений: 3)

Ответ на: комментарий от targitaj

Не получится, ядро не даст выгрузить используемый, и тем более зависший модуль.
Если бы завис именно GPU, то модуль бы сам сделел ему reset. Но если баг в самом драйвере, то все, финиш. Только перезагрузка.

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

Я практически уверен, что это так сыграл вероятно битый модуль ОЗУ. В какой-то момент оно начало демонстрировать все признаки, но мне лениво гонять тесты и вообще заниматься этим. Стало быть, только ребут хоста?

targitaj ★★★★★
() автор топика
Ответ на: комментарий от targitaj

Ну во всяком случае у меня ни разу не получилось восстановить систему после подобного зависания. И даже в тех случаях, когда штатно отрабатывал gpu reset, система как правило дальше работала не стабильно и в конце-концов зависала.
По поводу памяти: у меня amdgpu зависает стабильно раз в 2 недели, иногда чаще. Специально для отлова аппаратных проблем пробовал ставить память с ECC, никакого эффекта, все точно так же.

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

В моём случае это скорее всего битый модуль ОЗУ. Переставлял модули между машинами - проблемы мигрировали следом.

targitaj ★★★★★
() автор топика

Отправил в ребут. Неактуально.

targitaj ★★★★★
() автор топика
Ответ на: комментарий от targitaj

В таких ситуациях всегда делаю мягкий ребут, с ручным завершением максимума процессов. Моя первая мысль - падение видеодрайвера. Восстановление невозможно, только перезапуск. Пытаться обратиться к Х в таком виде черевато полным зависанием всего остального, в т.ч. ssh и даже ping. А если виновата битая память, то вы потом затрахаетесь, но в итоге всё таки прогонете её через тесты.

kirill_rrr ★★★★★
()
Последнее исправление: kirill_rrr (всего исправлений: 1)
Ответ на: комментарий от kirill_rrr

Может и прогоню, а может просто через пару месяцев заменю целиком платформу.

targitaj ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.