LINUX.ORG.RU

Много мусора в логах ядра от amdgpu

 , , , ,


0

1

Ночи доброй, ЛОР. Продолжение саги о линуксе на AMD и мусоре в логах. Дано: Pop_OS 20.04 + ядро 5.10 взятое с Ubuntu mainline, GPU Asus Radeon 5500 XT Dual 8GB, подключены 2 монитора по DisplayPort. Соб-но, в чем вопрос: Система работает стабильно, к этому нет претензий, но в dmesg огромное количество подобных записей. Подскажите пожалуйста, есть о чём переживать / что-то костылить или это просто Warning’и на которые можно забить?

...
[ 3800.311476] amdgpu 0000:0c:00.0: amdgpu: RAS: optional ras ta ucode is not available
[ 3800.335498] amdgpu 0000:0c:00.0: amdgpu: RAP: optional rap ta ucode is not available
[ 3800.335502] amdgpu 0000:0c:00.0: amdgpu: SMU is resuming...
[ 3800.335509] amdgpu 0000:0c:00.0: amdgpu: smu driver if version = 0x00000036, smu fw if version = 0x00000037, smu fw version = 0x00351d00 (53.29.0)
[ 3800.335510] amdgpu 0000:0c:00.0: amdgpu: SMU driver if version not matched
[ 3800.337957] amdgpu 0000:0c:00.0: amdgpu: SMU is resumed successfully!
[ 3800.623541] [drm] kiq ring mec 2 pipe 1 q 0
[ 3800.635787] [drm] VCN decode and encode initialized successfully(under DPG Mode).
[ 3800.635920] [drm] JPEG decode initialized successfully.
[ 3800.635939] amdgpu 0000:0c:00.0: amdgpu: ring gfx_0.0.0 uses VM inv eng 0 on hub 0
[ 3800.635940] amdgpu 0000:0c:00.0: amdgpu: ring comp_1.0.0 uses VM inv eng 1 on hub 0
[ 3800.635941] amdgpu 0000:0c:00.0: amdgpu: ring comp_1.1.0 uses VM inv eng 4 on hub 0
[ 3800.635942] amdgpu 0000:0c:00.0: amdgpu: ring comp_1.2.0 uses VM inv eng 5 on hub 0
[ 3800.635943] amdgpu 0000:0c:00.0: amdgpu: ring comp_1.3.0 uses VM inv eng 6 on hub 0
[ 3800.635944] amdgpu 0000:0c:00.0: amdgpu: ring comp_1.0.1 uses VM inv eng 7 on hub 0
[ 3800.635945] amdgpu 0000:0c:00.0: amdgpu: ring comp_1.1.1 uses VM inv eng 8 on hub 0
[ 3800.635945] amdgpu 0000:0c:00.0: amdgpu: ring comp_1.2.1 uses VM inv eng 9 on hub 0
[ 3800.635946] amdgpu 0000:0c:00.0: amdgpu: ring comp_1.3.1 uses VM inv eng 10 on hub 0
[ 3800.635947] amdgpu 0000:0c:00.0: amdgpu: ring kiq_2.1.0 uses VM inv eng 11 on hub 0
[ 3800.635948] amdgpu 0000:0c:00.0: amdgpu: ring sdma0 uses VM inv eng 12 on hub 0
[ 3800.635949] amdgpu 0000:0c:00.0: amdgpu: ring sdma1 uses VM inv eng 13 on hub 0
[ 3800.635950] amdgpu 0000:0c:00.0: amdgpu: ring vcn_dec uses VM inv eng 0 on hub 1
[ 3800.635950] amdgpu 0000:0c:00.0: amdgpu: ring vcn_enc0 uses VM inv eng 1 on hub 1
[ 3800.635951] amdgpu 0000:0c:00.0: amdgpu: ring vcn_enc1 uses VM inv eng 4 on hub 1
[ 3800.635952] amdgpu 0000:0c:00.0: amdgpu: ring jpeg_dec uses VM inv eng 5 on hub 1
[ 3806.611200] [drm] free PSP TMR buffer
[ 3809.264438] [drm] PCIE GART of 512M enabled (table at 0x0000008000000000).
[ 3809.264453] [drm] PSP is resuming...
[ 3809.439225] [drm] reserve 0x900000 from 0x800f400000 for PSP TMR
[ 3809.631453] amdgpu 0000:0c:00.0: amdgpu: RAS: optional ras ta ucode is not available
[ 3809.655228] amdgpu 0000:0c:00.0: amdgpu: RAP: optional rap ta ucode is not available
[ 3809.655232] amdgpu 0000:0c:00.0: amdgpu: SMU is resuming...
[ 3809.655238] amdgpu 0000:0c:00.0: amdgpu: smu driver if version = 0x00000036, smu fw if version = 0x00000037, smu fw version = 0x00351d00 (53.29.0)
[ 3809.655240] amdgpu 0000:0c:00.0: amdgpu: SMU driver if version not matched
[ 3809.657379] amdgpu 0000:0c:00.0: amdgpu: SMU is resumed successfully!
...

★★★★

Дано: Pop_OS 20.04 + ядро 5.10 взятое с Ubuntu mainline

this.

Из-за этого, видимо, возникает

amdgpu: smu driver if version = 0x00000036, smu fw if version = 0x00000037, smu fw version = 0x00351d00 (53.29.0)
amdgpu: SMU driver if version not matched

Надо, наверное, либо откатить ядро, либо обновить firmware.

Также не хватает каких-то optional firmwares (/lib/firmware/amdgpu/*_ta.bin, вроде бы navi14_ta.bin):

amdgpu: RAS: optional ras ta ucode is not available
amdgpu: RAP: optional rap ta ucode is not available
zemidius
()
Ответ на: комментарий от zemidius

Ага, картина начинает складываться. А не подскажешь, как это можно сделать? Я в таких моментах не особо силен, боюсь сломать что-либо.

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Именно. Вывод команды

vsulimov@workstation:~$  dpkg -l | grep linux-firmware
ii  linux-firmware                                   1.190.1+system76~1605123765~20.04~3894207            all          Firmware for Linux kernel drivers

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Так в том суть, что если откатить на 5.8 - стрелять начнёт с другой стороны. Ядро 5.10 было натянуто именно по этой причине)

Видна не вся ОЗУ и странные ошибки в логах ядра.

Тут вопрос скорее такой: Эти ворнинги на что-то влияют или я не замечу отсутствие firmware? Потому что в целом система, кажется, работает стабильно.

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Понял, спасибо большое за наводку на корень проблемы, завтра ознакомлюсь с ссылкой.

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Немного информации, может для вас что-нибудь интересное в этом будет. Сначала перебрал imnitramfs на текущей кофигурации. Было много warning’ов вида

W: Possible missing firmware...

Но при этом navi14 среди них не фигурировало. Насколько я понял, проблема тянулась от того, что firmware был устаревшей версии, а amdgpu драйвер из состава ядра новый и при попытке натянуть сову на глобус оно плевалось ошибками (кстати, если знаете, что эти ошибки таки могли значить? Драйвер падал или это просто могли быть warning’и?). В итоге взял последний коммит с Вашего грепа по navi14, вбросил оттуда все firmware для amdgpu, пересобрал initramfs и наблюдаю. Система стартовала, уже неплохо, а остальное покажет время.

Jefail ★★★★
() автор топика
Последнее исправление: Jefail (всего исправлений: 1)
Ответ на: комментарий от Jefail

кстати, если знаете, что эти ошибки таки могли значить? Драйвер падал или это просто могли быть warning’и?

Непонятно. AMD надо логописателя сменить на вменяемого.

Система стартовала, уже неплохо

А сообщения поменялись на нормальные?

zemidius
()
Ответ на: комментарий от zemidius

Эхх, теперь циферки другие стали…

[ 2409.526463] amdgpu 0000:0c:00.0: amdgpu: RAS: optional ras ta ucode is not available
[ 2409.550415] amdgpu 0000:0c:00.0: amdgpu: RAP: optional rap ta ucode is not available
[ 2409.550419] amdgpu 0000:0c:00.0: amdgpu: SMU is resuming...
[ 2409.550425] amdgpu 0000:0c:00.0: amdgpu: smu driver if version = 0x00000036, smu fw if version = 0x00000038, smu fw version = 0x00352100 (53.33.0)
[ 2409.550425] amdgpu 0000:0c:00.0: amdgpu: SMU driver if version not matched
[ 2409.552793] amdgpu 0000:0c:00.0: amdgpu: SMU is resumed successfully!

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Так, а вот теперь вопрос в другом, можно ли просто из старого linux-firmware всё из amdgpu перенести в /lib/firmware/amdgpu, или перед этим стоит как-то всё откатить?

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Не обращал внимания, ибо почти сразу заменил его на 5.10. Вопрос теперь в другом, чёрт с ними с ворнингами, раз они отовсюду лезут. Не подскажете, как можно вернуть всё взад назад в /lib/firmware? Бэкап, по глупости, не делал.

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Спасибо большое за информацию, поколдую еще немного, в крайнем случае переставлю и сделаю ребилд, потому что, опять же, чисто визуально всё работает как надо и не ясно, где же суслик зарыт.

Jefail ★★★★
() автор топика
Ответ на: комментарий от Jefail

Можно запустить менеджер пакетов synaptic, найти там пакет с ядром, и в меню выбрать «Указать версию...». Там будет выбор, или пакет будет установлен из репозитория Pop! OS, или из репозитория Ubuntu.

ZenitharChampion ★★★★★
()
Ответ на: комментарий от ZenitharChampion

Так нет, у меня нет цели поставить старое ядро, 5.10 мне нужно для работы 5950x. У меня есть цель натянуть эту сову на глобус в виде amdgpu и тех странных ошибок. В гугле нашел, что может помочь еще флаг ядру amdgpu.runpm=0, попробую интереса ради.

Jefail ★★★★
() автор топика
Последнее исправление: Jefail (всего исправлений: 1)
Ответ на: комментарий от Jefail

// Никогда не понимал, зачем нужен драйвер для процессора. Типа, а как система загрузит драйвер для процессора, если ей для этого нужен доступ к процессору?

ZenitharChampion ★★★★★
()
Ответ на: комментарий от ZenitharChampion

Суть в другом. Если ставить дефолт 20.04 - там ядро 5.8. Система работает, но в логах есть ошибки с инициализацией памяти (возможно не фатальные, но они есть). Если обновить ядро до 5.10 - ошибки пропадут, но теперь у меня флуд ворнингов от amdgpu и я пытаюсь починить это. Была гипотеза что это появилось после ручного обновления ядра до 5.10 (разъехалось с linux-firmware), но сейчас я уже не уверен.

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Я думаю я забью на это дело. Откопал в journalctl самые первые логи, благо система стоит всего пару дней и они еще есть. И там тоже

Feb 10 22:42:38 pop-os kernel: amdgpu 0000:0c:00.0: amdgpu: RAS: optional ras ta ucode is not available
Feb 10 22:42:38 pop-os kernel: amdgpu: use vbios provided pptable
Feb 10 22:42:38 pop-os kernel: amdgpu: smc_dpm_info table revision(format.content): 4.5
Feb 10 22:42:38 pop-os kernel: amdgpu: smu driver if version = 0x00000036, smu fw if version = 0x00000037, smu fw version = 0x00351d00 (53.29.0)
Feb 10 22:42:38 pop-os kernel: amdgpu: SMU driver if version not matched

Jefail ★★★★
() автор топика
Ответ на: комментарий от zemidius

Максимально идиотский финал. Проблема, судя по всему, была в том, что корпус немного перекрывал DisplayPort и кабель одного из мониторов отваливался. Поправил видеокарту - ошибка теперь повляется только один раз при загрузке и больше в лог не флудит. Такие вот дела. В любом случае, большое спасибо за помощь, теперь я чуть больше знаю про amdgpu и его связку с firmware.

Jefail ★★★★
() автор топика
Последнее исправление: Jefail (всего исправлений: 1)
Ответ на: комментарий от Jefail

Жди DisplayPort 2.0 с винтиками на коннекторе, щито тут скажешь :D

melkor217 ★★★★★
()

RAS не поддерживается на консьюмерских видеокартах, это фича для есть только на промышленных GPU.

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

Да меня смущало не отсутствие RAS, а тот факт, что драйвер флудит логами, идентичными своему запуску. Буд-то бы он в тихую падает и перезапускается во время аптайма системы.

Jefail ★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.