LINUX.ORG.RU

clinfo подвисает с более чем двумя картами Vega56 в системе с процессором Ryzen

 , ,


0

2

clinfo подвисает с более чем двумя картами Vega56 в системе с процессором Ryzen

Поделитесь историей успеха в сражении с clinfo на Vega56+rocm или идеей как порешить эту задачку?

Deleted

Последнее исправление: Deleted (всего исправлений: 3)

Та этот clinfo небось из хуанговского гейворкса. Используй нормальные opencl приложения.

anonymous
()
Ответ на: комментарий от anonymous

ссыль на кошерное, запущу, сообщу результат, но догадываюсь, что проблема в том, что OpenCL да и весь стек rocm - хромая индейка, если карт больше двух подцеплено в системе с одним процессором Ryzen.

Собственно задачка запустить OpenCL на больше чем две карточки Vega56 с одним процессором Ryzen. На офтопике работает OpencL на 7 карточках Vega56, а на Linux стеке rocm даже на трех Vega56 не хочет ничего считаться в OpenCL. На одной Vega56 и на двух Vega56 работает OpencL!

Deleted
()
Последнее исправление: Deleted (всего исправлений: 2)

Это норма. У меня clinfo тоже крашится с rocm. А еще beignet отваливается, хотя казалось бы причем там intel.

Решил просто - выпилил rocm, оставив полезные тулзы из его набора (rocm-smi и т.д.).

Radius ★★★★
()
Ответ на: комментарий от Radius

Установил amdgpu-pro-19.10-785425-ubuntu-18.04.tar.xz

clinfo завелось из этого же пакета но показывает только OpenCL 1.1, что для вычислений - не годится.

  Name:						 Radeon RX Vega (VEGA10, DRM 3.30.0, 5.1.1-gentoo, LLVM 8.0.0)
  Vendor:					 AMD
  Device OpenCL C version:			 OpenCL C 1.1 
  Driver version:				 19.0.4
  Profile:					 FULL_PROFILE
  Version:					 OpenCL 1.1 Mesa 19.0.4

А rocminfo хочет заголовок hsa.h его откуда брать ?

Can't find hsa.h.
Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)

Вот зачем вы на AMD наговариваете!!!!111

Сколько бы я не сидел на AMD и не смотрел аниме у меня такого никогда не было!!!!
А вот зато, как я слышал, на Интеле и Нвидии там постоянный пердолинг с драйверами - крайне не советую
SakuraKun не даст соврать!

anonymous
()

Это потому что третья видеокарта подключена к чипсету с кастрированным pcie, а не процессору. Исправляется переходом на threadripper или Skylake-X. Если брать Skylake-X, то надо предварительно убедиться, что все pcie линии на месте.

steemandlinux ★★★★★
()
Последнее исправление: steemandlinux (всего исправлений: 1)
Ответ на: комментарий от anonymous

tensorflow, caffe2, pytorch и многие другие, портирование приложений с cuda на нее более чем простое, а вот обратно никак, ибо кудах сосет по функциональности.

steemandlinux ★★★★★
()
Последнее исправление: steemandlinux (всего исправлений: 1)
Ответ на: комментарий от steemandlinux

Проект rocm давно уже заявил что ограничения сняты

в виде 2 карт на один Ryzen

в виде 4 карт на один Threadripper

В последний раз пробовал на rocm 1.9, и недавно снова попробовал на rocm 2.4.

Прогресс уже имеется, но без OpencCL 1.2 и выше, и походу удастся завести желаемое только через rocm-dkms.

Пока завис на чтении вот этого руководства по установке rocm-dkms, изучаю применительно к Gentoo как все это провернуть.

PS. А стенда со Skylake нет для теста и брать не планируется даже если на Skylake вдруг заработает у кого. Смотрю в сторону Threadripper 1950/2950 и четырех карт на один процессор, воткнутых напрямую в плату, без райзеров. А пока денег мало, хотелось бы на каждом из Ryzen крутить по 6-7 Вег56 без оффтопика 10ки, на котором хоть и с шаманскими обрядами, но работает по 7 карт Вега56 на один процессор.

Сейчас конфигурация моего стенда такая:

lspci -tv
-[0000:00]-+-00.0  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Root Complex
           +-00.2  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) I/O Memory Management Unit
           +-01.0  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
           +-01.1-[01]----00.0  Lite-On Technology Corporation Device 21f1
           +-01.3-[02-0c]--+-00.0  Advanced Micro Devices, Inc. [AMD] X370 Series Chipset USB 3.1 xHCI Controller
           |               +-00.1  Advanced Micro Devices, Inc. [AMD] X370 Series Chipset SATA Controller
           |               \-00.2-[03-0c]--+-02.0-[04]----00.0  Intel Corporation I211 Gigabit Network Connection
           |                               +-04.0-[05]--
           |                               +-05.0-[06-08]----00.0-[07-08]----00.0-[08]--+-00.0  Advanced Micro Devices, Inc. [AMD/ATI] Vega 10 XL/XT [Radeon RX Vega 56/64]
           |                               |                                            \-00.1  Advanced Micro Devices, Inc. [AMD/ATI] Vega 10 HDMI Audio [Radeon Vega 56/64]
           |                               +-06.0-[09-0b]----00.0-[0a-0b]----00.0-[0b]--+-00.0  Advanced Micro Devices, Inc. [AMD/ATI] Vega 10 XL/XT [Radeon RX Vega 56/64]
           |                               |                                            \-00.1  Advanced Micro Devices, Inc. [AMD/ATI] Vega 10 HDMI Audio [Radeon Vega 56/64]
           |                               \-07.0-[0c]--
           +-02.0  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
           +-03.0  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
           +-03.1-[0d-0f]----00.0-[0e-0f]----00.0-[0f]--+-00.0  Advanced Micro Devices, Inc. [AMD/ATI] Vega 10 XL/XT [Radeon RX Vega 56/64]
           |                                            \-00.1  Advanced Micro Devices, Inc. [AMD/ATI] Vega 10 HDMI Audio [Radeon Vega 56/64]
           +-04.0  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
           +-07.0  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
           +-07.1-[10]--+-00.0  Advanced Micro Devices, Inc. [AMD] Zeppelin/Raven/Raven2 PCIe Dummy Function
           |            +-00.2  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Platform Security Processor
           |            \-00.3  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) USB 3.0 Host Controller
           +-08.0  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
           +-08.1-[11]--+-00.0  Advanced Micro Devices, Inc. [AMD] Zeppelin/Renoir PCIe Dummy Function
           |            \-00.3  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) HD Audio Controller
           +-14.0  Advanced Micro Devices, Inc. [AMD] FCH SMBus Controller
           +-14.3  Advanced Micro Devices, Inc. [AMD] FCH LPC Bridge
           +-18.0  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 0
           +-18.1  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 1
           +-18.2  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 2
           +-18.3  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 3
           +-18.4  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 4
           +-18.5  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 5
           +-18.6  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 6
           \-18.7  Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 7

Deleted
()
Последнее исправление: Deleted (всего исправлений: 2)
Ответ на: комментарий от Deleted

Ограничения может и сняты, только вот нет материнских плат с 3 и более pcie на процессор. Как оно не работало через чипсет, так и не работает, будет возможно на следующей серии чипсетов, когда добавят всю требуемую функциональность. Проверяется элементарно, выдерните карту с процессора и оставьте одну в процессоре, вторую на чипсете, будут точно такие же проблемы как и с тремя. Это решаемо либо использованием opencl 1.2 в windows, либо использованием threadripper и rocm.

steemandlinux ★★★★★
()
Ответ на: комментарий от steemandlinux

То о чем пишите уже в прошлом :)

С ядром Linux 5.1.1 три карты работают, но только больше трех карт пока не пробовал, НО только OpenCL версии 1.1 от Mesa 19.0.4. Здесь уже был совет что нужно попробовать, чтобы завести и повыше версии OpenCL (для расчетов нужно не ниже версии 1.2, а АМД в закрытых дровах и соответствующем ПО вроде как поддерживает и OpenCL даже версии 2.1), сам пока ещё не пробовал - изучаю вопрос.

Ограничений в новых версиях ядра и стека rocm больше нет, карты можно втыкать хоть в PCIe версии 2.0 х1 и даже более того в платы со старыми процессорами AMD (!) и больше ядро не глючит от этого. Раньше же действительно, даже загрузка драйвера amdgpu не шла, когда втыкал три карты и более на один Ryzen. Также обязательно проверю и на старых процессорах Phenom II как все будет заводиться, но лишь после того как удастся победить Ryzen.

Проблема исключительно в самом rocm или моем неумении его приготовить. Позже выясню и сообщу.

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)
Ответ на: комментарий от Deleted

С ядром Linux 5.1.1 три карты работают, но только больше трех карт пока не пробовал, НО только OpenCL версии 1.1 от Mesa 19.0.4.

Какую же ты дичь несешь. Карты работают, не работает сам ROCm. Удачи запустить ROCm на трех картах с райзеном.

steemandlinux ★★★★★
()
Ответ на: комментарий от tim239

Не знал что добавили поддержку, не следил за его развитием.

steemandlinux ★★★★★
()
Ответ на: комментарий от steemandlinux

Дичь нужно приготовить, чтобы судить о ней.

Работают три карты с ROCM 2.4.0 - система с ними грузилась, не работает лишь clinfo на стеке ROCM и то потому что рецепт не нашел ещё. Впрочем clinfo заработал, тот что из пакета amdgpu-pro, в окружении ROCM 2.4.0, но мне показывал лишь OpenCL 1.1 от Mesa 19.0.4. Тут уже была подсказка что пробовать нужно. Дойдут руки и хватит если остатков мозгов - разберусь и с этим :)

А вот с этим набором патчей, не просто ядро и дрова будут, а сказка! https://github.com/orsonteodoro/oiledmachine-overlay/tree/master/sys-kernel/ot-sources и стек rocm 2.4.0 их проглотить должен. А поддержку OpenCL (в том числе и версии 2.1) вероятно все равно придется брать из amdgpu-pro-19.10, в rocm с этим снова проблемы.

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)
Ответ на: комментарий от Deleted

Твою мать, система будет работать с тремя видеокартами, не будет работать ROCm, ты третий раз дичь повторяешь эту.

steemandlinux ★★★★★
()
Ответ на: комментарий от steemandlinux

Слушай дорогой, зачем ругаешься? Уймись.

Ты лучше не вангуй, а делом займись.

Куда они милые денутся, дикий ты наш.

Deleted
()
Ответ на: комментарий от steemandlinux

Вопрос нужно было поставить так, а в работающей системе Ryzen 1800х + более чем две карты Vega56 на стеке ROCM удалось завести OpenCL версии выше чем 1.1 ?

Ответ: не пытался снова, ожидаю помощи или подсказки от сообщества, или когда баги и ограничения пофиксит сама AMD.

Также добавлю что в 2018 году система на ROCM даже не грузилась, были ограничения и баги которые AMD успешно исправила или убрала в начале 2019 с выходом rocm версий выше 2.0

Теперь система грузится, даже с тремя картами, но как завести OpenCL версии выше чем 1.1. пока не разбирался, работа на галерах все время съедает, четыре проекта одновременно - сил и времени на хобби не остается совсем! А еще и опыта маловато в ядерных делах и в разработке и исправлении драйверов и компиляторов clang/llvm.

Если располагаете своими карточками Vega и имеете на руках готовый рецепт (патчик к проекту rocm и/или что даже лучше к ядру ot-sources-5.1.4) - напишите мне сколько денег хотите за помощь

perestoronin собака gmail.com

Deleted
()
Последнее исправление: Deleted (всего исправлений: 3)
Ответ на: комментарий от Deleted

У автора оверлея карты Radeon RX 560 (POLARIS11) и у него clinfo работает, но у меня Vega 56!

  • вероятно я не выполнил какие-то шаманские дополнительные обряды, которые автор делает интуитивно и не отразил у себя нигде в issues
dev-libs/rocm-opencl-runtime 	2.4 	"clinfo" reports suitable informations.
Simple "Hello World" program from "OpenCL Programming Guide" works.
Deleted
()

Оказалась причина почему все предложенные рецепты не сработали - банальной, в ebuild было указано использовать legacy orca, а нужно было без него.

Все завелось без rocm и без полной установки amdgpu-pro

Вопрос решился, благодарю всех за помощь!

# clinfo
Number of platforms                               1
  Platform Name                                   AMD Accelerated Parallel Processing
  Platform Vendor                                 Advanced Micro Devices, Inc.
  Platform Version                                OpenCL 2.1 AMD-APP (2841.4)
  Platform Profile                                FULL_PROFILE
  Platform Extensions                             cl_khr_icd cl_amd_event_callback cl_amd_offline_devices 
  Platform Host timer resolution                  1ns
  Platform Extensions function suffix             AMD

  Platform Name                                   AMD Accelerated Parallel Processing
Number of devices                                 3
  Device Name                                     gfx900
  Device Vendor                                   Advanced Micro Devices, Inc.
  Device Vendor ID                                0x1002
  Device Version                                  OpenCL 2.0 AMD-APP (2841.4)
  Driver Version                                  2841.4 (PAL,HSAIL)
  Device OpenCL C Version                         OpenCL C 2.0 
  Device Type                                     GPU
  Device Board Name (AMD)                         Radeon RX Vega
  Device Topology (AMD)                           PCI-E, 0f:00.0
  Device Profile                                  FULL_PROFILE

На трех картах Vega56 на Ryzen 1800х

Надеюсь и на 7 картах тоже будет работать как и под Win10 или лучше :)

Deleted
()
Ответ на: комментарий от Deleted

Через коммутатор три карты и четыре от материнской платы - все семь карт работают, приятным бонусом OpenCL версии 2.0 в дровах amdgpu-pro 19.10.785425 для карт Vega56.

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)
Ответ на: комментарий от Deleted

У тебя Gentoo? Выкини rocm, поставь amdgpu-pro-opencl. На крайняк можешь посмотреть eselect opencl list
Ну и да. mesa должна быть собрана БЕЗ opencl. Ты просто не так всё сделал. А вот когда заведётся то, что у тебя есть, тогда будешь ковырять rocm. хотя можешь пересобрать mesa без opencl.

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)
Ответ на: комментарий от Deleted

Так и сделал, только вот amdgpu-pro-opencl кривой, к моим картам не подошел, пришлось грязные руки в него запустить и все завелось.

Конечно mesa без OpenCL.

rocm - ковырять не буду, оно все еще по прежнему сырое, даже в версии 2.4.0, из него взял только rocm-smi, остальное все для меня не интересное.

Deleted
()
Последнее исправление: Deleted (всего исправлений: 2)
Ответ на: комментарий от anonymous

Там выбор не густой, и он не менялся все это время :)

# eselect opencl list
Available OpenCL implementations:
  [1]   ocl-icd *
Deleted
()
Ответ на: комментарий от Deleted

Да нет, я говорил что месу без опенсл собирать именно что без этого нормально не поставить опенсл от амдгпу-про. Только и делов. В общем, как понимаю, в данный момент проблема решена, так что уже не важно :)

Deleted
()

После некоторых обновлений системы проблема вернулась с новыми ошибками:

# clinfo
Number of platforms                               1
  Platform Name                                   AMD Accelerated Parallel Processing
  Platform Vendor                                 Advanced Micro Devices, Inc.
  Platform Version                                OpenCL 2.1 AMD-APP (2841.4)
  Platform Profile                                FULL_PROFILE
  Platform Extensions                             cl_khr_icd cl_amd_event_callback cl_amd_offline_devices 
  Platform Host timer resolution                  1ns
  Platform Extensions function suffix             AMD

  Platform Name                                   AMD Accelerated Parallel Processing
Number of devices                                 7
  Device Name                                     gfx900
  Device Vendor                                   Advanced Micro Devices, Inc.
  Device Vendor ID                                0x1002
  Device Version                                  OpenCL 2.0 AMD-APP (2841.4)
  Driver Version                                  2841.4 (PAL,HSAIL)
  Device OpenCL C Version                         OpenCL C 2.0 
  Device Type                                     GPU
  Device Board Name (AMD)                         Radeon RX Vega
  Device Topology (AMD)                           PCI-E, 1b:00.0
  Device Profile                                  FULL_PROFILE
  Device Available                                Yes
  Compiler Available                              Yes
  Linker Available                                Yes
  Max compute units                               56
  SIMD per compute unit (AMD)                     4
  SIMD width (AMD)                                16
  SIMD instruction width (AMD)                    1
  Max clock frequency                             1590MHz
  Graphics IP (AMD)                               9.0
  Device Partition                                (core)
    Max number of sub-devices                     56
    Supported partition types                     None
    Supported affinity domains                    (n/a)
  Max work item dimensions                        3
  Max work item sizes                             1024x1024x1024
  Max work group size                             256
  Preferred work group size (AMD)                 256
  Max work group size (AMD)                       1024

дальше вывода нет, на этом месте консоль и висит
Deleted
()
Ответ на: комментарий от Deleted
подключась еще раз и смотрю:
```bash
# dmesg
....
[   15.865620] [drm] Initialized amdgpu 3.30.0 20150101 for 0000:1b:00.0 on minor 6
[  664.374035] ------------[ cut here ]------------
[  664.374036] CPU update of VM recommended only for large BAR system
[  664.374066] WARNING: CPU: 7 PID: 3800 at drivers/gpu/drm/amd/amdgpu/amdgpu_vm.c:3020 amdgpu_vm_init+0x439/0x4c0 [amdgpu]
[  664.374066] Modules linked in: nls_cp1251 amdgpu k10temp chash backlight gpu_sched drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops ttm drm efivarfs
[  664.374072] CPU: 7 PID: 3800 Comm: clinfo Not tainted 5.1.8-gentoo #1
[  664.374072] Hardware name: System manufacturer System Product Name/ROG CROSSHAIR VI EXTREME, BIOS 6401 12/07/2018
[  664.374088] RIP: 0010:amdgpu_vm_init+0x439/0x4c0 [amdgpu]
[  664.374089] Code: 7d bc f9 ff 48 8b 43 50 48 8b 78 10 48 83 c7 50 e8 cc b3 56 f0 eb 94 48 c7 c7 b8 4e 53 c0 c6 05 0f a2 28 00 01 e8 71 27 d7 ef <0f> 0b e9 05 fd ff ff 41 89 df eb 81 49 8b 46 50 48 8b 78 10 48 83
[  664.374090] RSP: 0018:ffffabc843c33b40 EFLAGS: 00010286
[  664.374091] RAX: 0000000000000000 RBX: ffff9c3863610000 RCX: 0000000000000000
[  664.374091] RDX: 0000000000000007 RSI: 0000000000000082 RDI: 00000000ffffffff
[  664.374091] RBP: ffff9c3864e7a0c0 R08: 0000000000000001 R09: 000000000000070e
[  664.374092] R10: 0000000000000001 R11: 0000000000000000 R12: ffff9c3863610000
[  664.374092] R13: ffff9c3864e7a000 R14: 0000000000000000 R15: 0000000000000000
[  664.374093] FS:  00007f987f024b80(0000) GS:ffff9c386c1c0000(0000) knlGS:0000000000000000
[  664.374093] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  664.374094] CR2: 00007f9879cd2228 CR3: 00000008d9ae0000 CR4: 00000000003406e0
[  664.374094] Call Trace:
[  664.374111]  amdgpu_driver_open_kms+0x9a/0x1d0 [amdgpu]
[  664.374116]  drm_file_alloc+0x155/0x220 [drm]
[  664.374120]  drm_open+0xac/0x1f0 [drm]
[  664.374124]  drm_stub_open+0xaf/0xe0 [drm]
[  664.374126]  chrdev_open+0xa3/0x1b0
[  664.374128]  ? cdev_put.part.0+0x20/0x20
[  664.374129]  do_dentry_open+0x12c/0x370
[  664.374130]  path_openat+0x2f9/0x14c0
[  664.374133]  ? alloc_set_pte+0xdc/0x4d0
[  664.374135]  ? filemap_map_pages+0x17a/0x320
[  664.374136]  do_filp_open+0x93/0x100
[  664.374139]  ? _raw_spin_unlock+0x12/0x30
[  664.374140]  do_sys_open+0x183/0x220
[  664.374142]  do_syscall_64+0x48/0x100
[  664.374144]  entry_SYSCALL_64_after_hwframe+0x44/0xa9
[  664.374145] RIP: 0033:0x7f987e97905e
[  664.374146] Code: 25 00 00 41 00 3d 00 00 41 00 74 48 48 8d 05 89 76 2d 00 8b 00 85 c0 75 69 89 f2 b8 01 01 00 00 48 89 fe bf 9c ff ff ff 0f 05 <48> 3d 00 f0 ff ff 0f 87 a6 00 00 00 48 8b 4c 24 28 64 48 33 0c 25
[  664.374146] RSP: 002b:00007ffd2bef1520 EFLAGS: 00000246 ORIG_RAX: 0000000000000101
[  664.374147] RAX: ffffffffffffffda RBX: 00007ffd2bef1938 RCX: 00007f987e97905e
[  664.374147] RDX: 0000000000000002 RSI: 00005577e9744b18 RDI: 00000000ffffff9c
[  664.374147] RBP: 00005577e9748650 R08: 00005577e9744b18 R09: 00005577e9744b30
[  664.374148] R10: 0000000000000000 R11: 0000000000000246 R12: 00007ffd2bef18d0
[  664.374148] R13: 00005577e9744ae8 R14: 00005577e9744b18 R15: 00007ffd2bef16c0
[  664.374149] ---[ end trace 6d68bb5ff95fd4e4 ]---
[  664.487346] BUG: unable to handle kernel NULL pointer dereference at 0000000000000000
[  664.487453] #PF error: [WRITE]
[  664.487482] PGD 0 P4D 0 
[  664.487503] Oops: 0002 [#1] PREEMPT SMP NOPTI
[  664.487554] CPU: 7 PID: 3800 Comm: clinfo Tainted: G        W         5.1.8-gentoo #1
[  664.487660] Hardware name: System manufacturer System Product Name/ROG CROSSHAIR VI EXTREME, BIOS 6401 12/07/2018
[  664.487832] RIP: 0010:gmc_v9_0_set_pte_pde+0x1b/0x30 [amdgpu]
[  664.487899] Code: e9 da 1f 8a f0 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 48 b8 00 f0 ff ff ff ff 00 00 c1 e2 03 48 21 c1 48 01 f2 4c 09 c1 <48> 89 0a 31 c0 c3 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 40 00 0f
[  664.488184] RSP: 0018:ffffabc843c33b28 EFLAGS: 00010202
[  664.488248] RAX: 0000fffffffff000 RBX: 0000000000000001 RCX: 0000000000cf4001
[  664.488344] RDX: 0000000000000000 RSI: 0000000000000000 RDI: ffff9c3863610000
[  664.488440] RBP: 0000000000000000 R08: 0000000000000001 R09: 0000000000000000
[  664.488536] R10: 0000000000000001 R11: ffff9c3863610000 R12: 0000000000000000
[  664.488631] R13: 0000000000000001 R14: ffffabc843c33bb0 R15: 0000000000cf4000
[  664.488727] FS:  00007f987f024b80(0000) GS:ffff9c386c1c0000(0000) knlGS:0000000000000000
[  664.488838] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  664.488911] CR2: 0000000000000000 CR3: 00000008d9ae0000 CR4: 00000000003406e0
[  664.489007] Call Trace:
[  664.489046]  amdgpu_vm_cpu_set_ptes+0x7a/0xf0 [amdgpu]
[  664.489121]  amdgpu_vm_update_directories+0x174/0x3d0 [amdgpu]
[  664.489206]  ? amdgpu_vm_bo_update+0x3b8/0x730 [amdgpu]
[  664.489281]  ? amdgpu_vm_do_copy_ptes+0xc0/0xc0 [amdgpu]
[  664.489356]  amdgpu_gem_va_ioctl+0x3e4/0x430 [amdgpu]
[  664.489430]  ? amdgpu_gem_metadata_ioctl+0x190/0x190 [amdgpu]
[  664.489501]  drm_ioctl_kernel+0xb2/0xf0 [drm]
[  664.489551]  drm_ioctl+0x2df/0x390 [drm]
[  664.489606]  ? amdgpu_gem_metadata_ioctl+0x190/0x190 [amdgpu]
[  664.489688]  amdgpu_drm_ioctl+0x49/0x80 [amdgpu]
[  664.489738]  do_vfs_ioctl+0xa5/0x610
[  664.489775]  ? handle_mm_fault+0x12f/0x220
[  664.489820]  ksys_ioctl+0x3a/0x70
[  664.489854]  __x64_sys_ioctl+0x16/0x20
[  664.489894]  do_syscall_64+0x48/0x100
[  664.489935]  entry_SYSCALL_64_after_hwframe+0x44/0xa9
[  664.489995] RIP: 0033:0x7f987e97fc57
[  664.490032] Code: 00 00 00 75 0c 48 c7 c0 ff ff ff ff 48 83 c4 18 c3 e8 dd d2 01 00 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 00 b8 10 00 00 00 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d 09 b2 2c 00 f7 d8 64 89 01 48
[  664.490317] RSP: 002b:00007ffd2beefe18 EFLAGS: 00000246 ORIG_RAX: 0000000000000010
[  664.490419] RAX: ffffffffffffffda RBX: 00005577e9c2d660 RCX: 00007f987e97fc57
[  664.490515] RDX: 00007ffd2beefea0 RSI: 00000000c0286448 RDI: 0000000000000006
[  664.490610] RBP: 00007ffd2beefea0 R08: 0000000100000000 R09: 000000000000000e
[  664.490706] R10: 00005577e9749ae8 R11: 0000000000000246 R12: 00000000c0286448
[  664.490802] R13: 0000000000000006 R14: 00007ffd2bef0370 R15: 00007ffd2bef0370
[  664.490898] Modules linked in: nls_cp1251 amdgpu k10temp chash backlight gpu_sched drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops ttm drm efivarfs
[  664.491111] CR2: 0000000000000000
[  664.491145] ---[ end trace 6d68bb5ff95fd4e5 ]---
[  664.491216] RIP: 0010:gmc_v9_0_set_pte_pde+0x1b/0x30 [amdgpu]
[  664.491283] Code: e9 da 1f 8a f0 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 48 b8 00 f0 ff ff ff ff 00 00 c1 e2 03 48 21 c1 48 01 f2 4c 09 c1 <48> 89 0a 31 c0 c3 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 40 00 0f
[  664.491568] RSP: 0018:ffffabc843c33b28 EFLAGS: 00010202
[  664.491633] RAX: 0000fffffffff000 RBX: 0000000000000001 RCX: 0000000000cf4001
[  664.496480] RDX: 0000000000000000 RSI: 0000000000000000 RDI: ffff9c3863610000
[  664.501373] RBP: 0000000000000000 R08: 0000000000000001 R09: 0000000000000000
[  664.506221] R10: 0000000000000001 R11: ffff9c3863610000 R12: 0000000000000000
[  664.511027] R13: 0000000000000001 R14: ffffabc843c33bb0 R15: 0000000000cf4000
[  664.515750] FS:  00007f987f024b80(0000) GS:ffff9c386c1c0000(0000) knlGS:0000000000000000
[  664.520472] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  664.525220] CR2: 0000000000000000 CR3: 00000008d9ae0000 CR4: 00000000003406e0
конец вывода
Deleted
()
Ответ на: комментарий от Deleted

ошибка, как мне показалась, свежая, может уже кто-то нашел её решение или даже вылечил ?

Deleted
()

Захотелось поставить не только OpenCL но и все остальное из amdgpu-pro, тем более что вышла недавно новая версия 19.20.

Но даже 19.20 рассчитана на старые ядра, а как бы amdgpu-pro-dkms установить в linux kernel 5.1.12 ?

Пока не удалось:

#make -j16 KERNELRELEASE=5.1.12-gentoo -j16 kdir=/lib/modules/5.1.12-gentoo/build -C /lib/modules/5.1.12-gentoo/build M=/var/lib/dkms/amdgpu/19.20-812932/build...(bad exit status: 2)
Error! Bad return status for module build on kernel: 5.1.12-gentoo (x86_64)
Consult /var/lib/dkms/amdgpu/19.20-812932/build/make.log for more information.
#cat make.log
...
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_drv.c: В функции «amdgpu_pmops_runtime_suspend»:
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_drv.c:1166:2: ошибка: неявная декларация функции «drm_kms_helper_poll_disable»; имелось в виду «drm_fb_helper_pan_display»? [-Werror=implicit-function-declaration]
  drm_kms_helper_poll_disable(drm_dev);
  ^~~~~~~~~~~~~~~~~~~~~~~~~~~
  drm_fb_helper_pan_display
  CC [M]  /var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_ttm.o
  CC [M]  /var/lib/dkms/amdgpu/19.20-812932/build/ttm/ttm_bo_vm.o
  CC [M]  /var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_object.o
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_drv.c: В функции «amdgpu_pmops_runtime_resume»:
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_drv.c:1205:2: ошибка: неявная декларация функции «drm_kms_helper_poll_enable»; имелось в виду «drm_fb_helper_fill_var»? [-Werror=implicit-function-declaration]
  drm_kms_helper_poll_enable(drm_dev);
  ^~~~~~~~~~~~~~~~~~~~~~~~~~
  drm_fb_helper_fill_var
  CC [M]  /var/lib/dkms/amdgpu/19.20-812932/build/ttm/ttm_module.o
  LD [M]  /var/lib/dkms/amdgpu/19.20-812932/build/amd/amdkcl/amdkcl.o
  CC [M]  /var/lib/dkms/amdgpu/19.20-812932/build/ttm/ttm_execbuf_util.o
  CC [M]  /var/lib/dkms/amdgpu/19.20-812932/build/ttm/ttm_page_alloc.o
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_drv.c: На верхнем уровне:
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_drv.c:1325:24: ошибка: «DRIVER_IRQ_SHARED» не описан здесь (не в функции); имелось в виду «TIMER_IRQSAFE»?
      DRIVER_HAVE_IRQ | DRIVER_IRQ_SHARED | DRIVER_GEM |
                        ^~~~~~~~~~~~~~~~~
                        TIMER_IRQSAFE
  LD [M]  /var/lib/dkms/amdgpu/19.20-812932/build/scheduler/amd-sched.o
cc1: некоторые предупреждения считаются ошибками
  CC [M]  /var/lib/dkms/amdgpu/19.20-812932/build/ttm/ttm_bo_manager.o
make[2]: *** [scripts/Makefile.build:276: /var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_drv.o] Ошибка 1
make[2]: *** Ожидание завершения заданий…
  CC [M]  /var/lib/dkms/amdgpu/19.20-812932/build/ttm/ttm_page_alloc_dma.o
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_device.c: В функции «amdgpu_switcheroo_set_state»:
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_device.c:1018:3: ошибка: неявная декларация функции «drm_kms_helper_poll_enable»; имелось в виду «drm_fb_helper_fill_var»? [-Werror=implicit-function-declaration]
   drm_kms_helper_poll_enable(dev);
   ^~~~~~~~~~~~~~~~~~~~~~~~~~
   drm_fb_helper_fill_var
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_device.c:1021:3: ошибка: неявная декларация функции «drm_kms_helper_poll_disable»; имелось в виду «drm_fb_helper_pan_display»? [-Werror=implicit-function-declaration]
   drm_kms_helper_poll_disable(dev);
   ^~~~~~~~~~~~~~~~~~~~~~~~~~~
   drm_fb_helper_pan_display
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_device.c: В функции «amdgpu_device_fini»:
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_device.c:2774:4: ошибка: неявная декларация функции «drm_crtc_force_disable_all»; имелось в виду «drm_helper_force_disable_all»? [-Werror=implicit-function-declaration]
    drm_crtc_force_disable_all(adev->ddev);
    ^~~~~~~~~~~~~~~~~~~~~~~~~~
    drm_helper_force_disable_all
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_device.c: В функции «amdgpu_device_resume»:
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_device.c:3023:3: ошибка: неявная декларация функции «drm_helper_hpd_irq_event»; имелось в виду «drm_fb_helper_hotplug_event»? [-Werror=implicit-function-declaration]
   drm_helper_hpd_irq_event(dev);
   ^~~~~~~~~~~~~~~~~~~~~~~~
   drm_fb_helper_hotplug_event
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_device.c:3025:3: ошибка: неявная декларация функции «drm_kms_helper_hotplug_event»; имелось в виду «drm_fb_helper_hotplug_event»? [-Werror=implicit-function-declaration]
   drm_kms_helper_hotplug_event(dev);
   ^~~~~~~~~~~~~~~~~~~~~~~~~~~~
   drm_fb_helper_hotplug_event
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_connectors.c: В функции «amdgpu_connector_lvds_detect»:
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_connectors.c:735:7: ошибка: неявная декларация функции «drm_kms_helper_is_poll_worker»; имелось в виду «drm_fb_helper_initial_config»? [-Werror=implicit-function-declaration]
  if (!drm_kms_helper_is_poll_worker()) {
       ^~~~~~~~~~~~~~~~~~~~~~~~~~~~~
       drm_fb_helper_initial_config
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_connectors.c: На верхнем уровне:
/var/lib/dkms/amdgpu/19.20-812932/build/amd/amdgpu/amdgpu_connectors.c:835:16: ошибка: «drm_helper_probe_single_connector_modes» не описан здесь (не в функции); имелось в виду «drm_helper_move_panel_connectors_to_head»?
  .fill_modes = drm_helper_probe_single_connector_modes,
                ^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
                drm_helper_move_panel_connectors_to_head
...

Вдруг кто уже починил, или может у кого руки прямее моих и может подсобить оперативно патчиком ? Не бесплатно ;)

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.