LINUX.ORG.RU

Очередные подвисания Radeon

 , , ,


0

1

Жил спокойно наверное пол года и вот опять началось: UI виснет наглухо, драйвера открытые, карта Radeon HD3650. Ничего в настройках не менял, скорее всего проблема прилетела с очередным firmware или ядром. Ubuntu 12.04.4, ядро 3.11.0-23-generic, linux-firmware 1.79.14.

Вот вывод с dmesg:

[40610.468078] radeon 0000:01:00.0: GPU lockup CP stall for more than 10000msec
[40610.468091] radeon 0000:01:00.0: GPU lockup (waiting for 0x00000000000aa2b6 last fence id 0x00000000000aa2a2)
[40610.968096] radeon 0000:01:00.0: GPU lockup CP stall for more than 10500msec
[40610.968109] radeon 0000:01:00.0: GPU lockup (waiting for 0x00000000000aa2a3)
[40610.968118] radeon 0000:01:00.0: failed to get a new IB (-35)
[40610.968124] [drm:radeon_cs_ib_chunk] *ERROR* Failed to get ib !
[40611.191497] radeon 0000:01:00.0: Saved 18681 dwords of commands on ring 0.
[40611.191522] radeon 0000:01:00.0: GPU softreset: 0x00000008
[40611.191530] radeon 0000:01:00.0:   R_008010_GRBM_STATUS      = 0xA0003030
[40611.191537] radeon 0000:01:00.0:   R_008014_GRBM_STATUS2     = 0x00000003
[40611.191544] radeon 0000:01:00.0:   R_000E50_SRBM_STATUS      = 0x200000C0
[40611.191552] radeon 0000:01:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000
[40611.191559] radeon 0000:01:00.0:   R_008678_CP_STALLED_STAT2 = 0x00000000
[40611.191566] radeon 0000:01:00.0:   R_00867C_CP_BUSY_STAT     = 0x00020186
[40611.191574] radeon 0000:01:00.0:   R_008680_CP_STAT          = 0x80028645
[40611.191582] radeon 0000:01:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57
[40611.251740] radeon 0000:01:00.0: R_008020_GRBM_SOFT_RESET=0x00004001
[40611.251801] radeon 0000:01:00.0: SRBM_SOFT_RESET=0x00000100
[40611.253897] radeon 0000:01:00.0:   R_008010_GRBM_STATUS      = 0xA0003030
[40611.253905] radeon 0000:01:00.0:   R_008014_GRBM_STATUS2     = 0x00000003
[40611.253912] radeon 0000:01:00.0:   R_000E50_SRBM_STATUS      = 0x200080C0
[40611.253919] radeon 0000:01:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000
[40611.253927] radeon 0000:01:00.0:   R_008678_CP_STALLED_STAT2 = 0x00000000
[40611.253934] radeon 0000:01:00.0:   R_00867C_CP_BUSY_STAT     = 0x00000000
[40611.253941] radeon 0000:01:00.0:   R_008680_CP_STAT          = 0x80100000
[40611.253949] radeon 0000:01:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57
[40611.253961] radeon 0000:01:00.0: GPU reset succeeded, trying to resume
[40611.273416] [drm] PCIE GART of 512M enabled (table at 0x0000000000040000).
[40611.273505] radeon 0000:01:00.0: WB enabled
[40611.273516] radeon 0000:01:00.0: fence driver on ring 0 use gpu addr 0x0000000040000c00 and cpu addr 0xffff8800b7d82c00
[40611.273524] radeon 0000:01:00.0: fence driver on ring 3 use gpu addr 0x0000000040000c0c and cpu addr 0xffff8800b7d82c0c
[40611.305355] [drm] ring test on 0 succeeded in 0 usecs
[40611.515850] [drm:r600_dma_ring_test] *ERROR* radeon: ring 3 test failed (0xCAFEDEAD)
[40611.515859] [drm:r600_resume] *ERROR* r600 startup failed on resume
[40621.512085] radeon 0000:01:00.0: GPU lockup CP stall for more than 10000msec
[40621.512099] radeon 0000:01:00.0: GPU lockup (waiting for 0x00000000000aa4eb last fence id 0x00000000000aa2a4)
[40621.512107] [drm:r600_ib_test] *ERROR* radeon: fence wait failed (-35).
[40621.512116] [drm:radeon_ib_ring_tests] *ERROR* radeon: failed testing IB on GFX ring (-35).
[40621.512123] radeon 0000:01:00.0: ib ring test failed (-35).
[40621.513182] radeon 0000:01:00.0: GPU softreset: 0x00000019
[40621.513190] radeon 0000:01:00.0:   R_008010_GRBM_STATUS      = 0xA20034E0
[40621.513197] radeon 0000:01:00.0:   R_008014_GRBM_STATUS2     = 0x00000003
[40621.513204] radeon 0000:01:00.0:   R_000E50_SRBM_STATUS      = 0x200000C0
[40621.513211] radeon 0000:01:00.0:   R_008674_CP_STALLED_STAT1 = 0x01000000
[40621.513218] radeon 0000:01:00.0:   R_008678_CP_STALLED_STAT2 = 0x00001002
[40621.513225] radeon 0000:01:00.0:   R_00867C_CP_BUSY_STAT     = 0x00028486
[40621.513232] radeon 0000:01:00.0:   R_008680_CP_STAT          = 0x80838645
[40621.513239] radeon 0000:01:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57
[40621.562976] radeon 0000:01:00.0: R_008020_GRBM_SOFT_RESET=0x00007FEF
[40621.563036] radeon 0000:01:00.0: SRBM_SOFT_RESET=0x00000100
[40621.565130] radeon 0000:01:00.0:   R_008010_GRBM_STATUS      = 0xA0003030
[40621.565138] radeon 0000:01:00.0:   R_008014_GRBM_STATUS2     = 0x00000003
[40621.565145] radeon 0000:01:00.0:   R_000E50_SRBM_STATUS      = 0x200080C0
[40621.565152] radeon 0000:01:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000
[40621.565159] radeon 0000:01:00.0:   R_008678_CP_STALLED_STAT2 = 0x00000000
[40621.565166] radeon 0000:01:00.0:   R_00867C_CP_BUSY_STAT     = 0x00000000
[40621.565173] radeon 0000:01:00.0:   R_008680_CP_STAT          = 0x80100000
[40621.565180] radeon 0000:01:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57
[40621.565190] radeon 0000:01:00.0: GPU reset succeeded, trying to resume
[40621.570454] [drm] PCIE GART of 512M enabled (table at 0x0000000000040000).
[40621.570543] radeon 0000:01:00.0: WB enabled
[40621.570554] radeon 0000:01:00.0: fence driver on ring 0 use gpu addr 0x0000000040000c00 and cpu addr 0xffff8800b7d82c00
[40621.570562] radeon 0000:01:00.0: fence driver on ring 3 use gpu addr 0x0000000040000c0c and cpu addr 0xffff8800b7d82c0c
[40621.602393] [drm] ring test on 0 succeeded in 0 usecs
[40621.811475] [drm:r600_dma_ring_test] *ERROR* radeon: ring 3 test failed (0xCAFEDEAD)
[40621.811485] [drm:r600_resume] *ERROR* r600 startup failed on resume
[40621.811569] [drm] ib test on ring 0 succeeded in 0 usecs
[40621.811941] switching from power state:
[40621.811943]  ui class: none
[40621.811944]  internal class: boot 
[40621.811946]  caps: video 
[40621.811949]  uvd    vclk: 0 dclk: 0
[40621.811950]          power level 0    sclk: 60000 mclk: 40000 vddc: 1100
[40621.811952]          power level 1    sclk: 60000 mclk: 40000 vddc: 1100
[40621.811953]          power level 2    sclk: 60000 mclk: 40000 vddc: 1100
[40621.811954]  status: c b 
[40621.811956] switching to power state:
[40621.811957]  ui class: performance
[40621.811959]  internal class: none
[40621.811961]  caps: single_disp video 
[40621.811963]  uvd    vclk: 0 dclk: 0
[40621.811965]          power level 0    sclk: 11000 mclk: 40000 vddc: 950
[40621.811966]          power level 1    sclk: 30000 mclk: 40000 vddc: 950
[40621.811968]          power level 2    sclk: 60000 mclk: 40000 vddc: 1100
[40621.811969]  status: r 
[40623.623414] radeon 0000:01:00.0: GPU softreset: 0x00000048
[40623.623419] radeon 0000:01:00.0:   R_008010_GRBM_STATUS      = 0xA0003030
[40623.623422] radeon 0000:01:00.0:   R_008014_GRBM_STATUS2     = 0x00000003
[40623.623425] radeon 0000:01:00.0:   R_000E50_SRBM_STATUS      = 0x200080C0
[40623.623427] radeon 0000:01:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000
[40623.623430] radeon 0000:01:00.0:   R_008678_CP_STALLED_STAT2 = 0x00000000
[40623.623433] radeon 0000:01:00.0:   R_00867C_CP_BUSY_STAT     = 0x00000000
[40623.623435] radeon 0000:01:00.0:   R_008680_CP_STAT          = 0x80100000
[40623.623438] radeon 0000:01:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57
[40623.677027] radeon 0000:01:00.0: R_008020_GRBM_SOFT_RESET=0x00004001
[40623.677087] radeon 0000:01:00.0: SRBM_SOFT_RESET=0x00002100
[40623.679184] radeon 0000:01:00.0:   R_008010_GRBM_STATUS      = 0xA0003030
[40623.679191] radeon 0000:01:00.0:   R_008014_GRBM_STATUS2     = 0x00000003
[40623.679199] radeon 0000:01:00.0:   R_000E50_SRBM_STATUS      = 0x200000C0
[40623.679206] radeon 0000:01:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000
[40623.679213] radeon 0000:01:00.0:   R_008678_CP_STALLED_STAT2 = 0x00000000
[40623.679221] radeon 0000:01:00.0:   R_00867C_CP_BUSY_STAT     = 0x00000000
[40623.679228] radeon 0000:01:00.0:   R_008680_CP_STAT          = 0x80100000
[40623.679235] radeon 0000:01:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57
[40623.679248] radeon 0000:01:00.0: GPU reset succeeded, trying to resume
[40623.696961] [drm] PCIE GART of 512M enabled (table at 0x0000000000040000).
[40623.697004] radeon 0000:01:00.0: WB enabled
[40623.697008] radeon 0000:01:00.0: fence driver on ring 0 use gpu addr 0x0000000040000c00 and cpu addr 0xffff8800b7d82c00
[40623.697011] radeon 0000:01:00.0: fence driver on ring 3 use gpu addr 0x0000000040000c0c and cpu addr 0xffff8800b7d82c0c
[40623.728292] [drm] ring test on 0 succeeded in 1 usecs
[40623.935920] [drm:r600_dma_ring_test] *ERROR* radeon: ring 3 test failed (0xCAFEDEAD)
[40623.935931] [drm:r600_resume] *ERROR* r600 startup failed on resume
[40623.936139] [drm] ib test on ring 0 succeeded in 0 usecs
[40623.936458] switching from power state:
[40623.936460]  ui class: none
[40623.936462]  internal class: boot 
[40623.936464]  caps: video 
[40623.936466]  uvd    vclk: 0 dclk: 0
[40623.936468]          power level 0    sclk: 60000 mclk: 40000 vddc: 1100
[40623.936470]          power level 1    sclk: 60000 mclk: 40000 vddc: 1100
[40623.936471]          power level 2    sclk: 60000 mclk: 40000 vddc: 1100
[40623.936472]  status: c b 
[40623.936474] switching to power state:
[40623.936475]  ui class: performance
[40623.936477]  internal class: none
[40623.936478]  caps: single_disp video 
[40623.936481]  uvd    vclk: 0 dclk: 0
[40623.936482]          power level 0    sclk: 11000 mclk: 40000 vddc: 950
[40623.936484]          power level 1    sclk: 30000 mclk: 40000 vddc: 950
[40623.936485]          power level 2    sclk: 60000 mclk: 40000 vddc: 1100
[40623.936487]  status: r

в 12.04 уже есть 3.13. До конца даже не обновил, а силы на то, чтобы поныть на лоре/создать тред остались.

darkenshvein ★★★★★
()
Ответ на: комментарий от Behem0th

Ядро в любом случае надо менять на 3.13, т.к. оно будет следующие 5 лет основным для 14.04: https://wiki.ubuntu.com/Kernel/LTSEnablementStack Попробую его.

linux-firmware может быть причиной проблем? Помню что недавно прилетало обновление.

frymock
() автор топика
Ответ на: комментарий от frymock

Лично я с таким не сталкивался, но почему бы нет? Ядро, фирмварь, меса и xf86-video-ati, любое из этой связки может такое вызывать. Более вероятно ядро потому и советуют обновить его в первую очередь. Как вариант можно отрепортить в багзилу фридесктопа но там скорее всего тоже посоветуют для начала обновиться.

Behem0th ★★★★★
()
29 марта 2015 г.
Ответ на: комментарий от Behem0th

Проблема так и осталась, Radeon безнадежен.

Ядро: 3.13.0-48-generic #80~precise1-Ubuntu SMP Thu Mar 12 19:30:15 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Фирмварь: 1.79.18

frymock
() автор топика
Ответ на: комментарий от anonymous

Что характерно, вешает карту все время хром, причем не при просмотре ютюбов и флешей всяких, а просто при открытии очередной страницы. Что-то видимо там происходит в памяти карты или в GPU.

frymock
() автор топика
Ответ на: комментарий от frymock

А вот кстати багрепорт: https://bugzilla.kernel.org/show_bug.cgi?id=62721

Я не одинок, стало даже легче на душе.

Последний коммент гласит что есть надежда что «radeon.hard_reset=1» в строке GRUB порешает проблему. Добавлю, поживем-увидим.

frymock
() автор топика
Ответ на: комментарий от frymock

3.13.0-48-generic

Я конечно тоже считаю радеон дрова говном, но попробуй обновить ядро до более актуальной версии(3.19-4.0rc).

Behem0th ★★★★★
()
Ответ на: комментарий от Behem0th

Пока посмотрю как будет работать с radeon.hard_reset.

В хромиум тоже зарепортили, причем жаловались не только владельцы радионов, но и интелов. В последнем комменте пишут что после добавления hard_reset система хотя бы не виснет наглухо, хотя хромиум все-равно падает.

https://code.google.com/p/chromium/issues/detail?id=404357#c50

Я кстати из этой ситуации выходил с помощью pm-suspend из консоли, чтобы не перезагружаться полностью, но задолбало уже чесслово.

frymock
() автор топика
Ответ на: комментарий от frymock

Странно. На второй тачке сменил два радеона. Сначала 3870 стоял около 4 лет. Потом поменял на 6870. Уже года 3 стоит. И ниразу ничего не повисло.

vq156 ★★
()
Ответ на: комментарий от vq156

Возможно это как-то с DPM связанно и у тебя он отключен. Подождем, если еще раз зависнет, то попробую отключить его нафиг.

frymock
() автор топика
Ответ на: комментарий от frymock

Возможно это как-то с DPM связанно

Пропадание ошибки при его отключении на это не двусмысленно намекает. Потому я и советую обновить ядро, в DPM системе было много изменений за прошедшее время.

Behem0th ★★★★★
()
Ответ на: комментарий от Behem0th

Пропадание ошибки при его отключении на это не двусмысленно намекает.

А откуда это? В каком-то из комментов багрепортов пытались отключить DPM, только вот не помню вылечило это проблему или нет.

frymock
() автор топика
Ответ на: комментарий от frymock

Пробежал по диагонали багрепорты и показалось что было упоминание об этом. Перечитал твои сообщения, был уверен что ты тоже писал про отключение ДПМ(видимо меня плавит). В любом случае я тебе ничем помочь не смогу. Свое мнение как попробовать решить проблему я уже озвучил выше.

Behem0th ★★★★★
()
12 июня 2016 г.
Ответ на: Привет из 2016 года от anonymous

Ядро всё ещё некрофильское? Для швабодных дров желательно вообще -rc хотя бы и весь остальной стек из git.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.