LINUX.ORG.RU

CUDA сломалась на последних дровах

 ,


1

2

Все проги, использующие сабж, падают с ошибкой unknown error.

Запускаю один из примеров:

bin/x86_64/linux/release/deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

cudaGetDeviceCount returned 30
-> unknown error
Result = FAIL

На более старых дровах (396.24) ошибка не проявляется.

==============NVSMI LOG==============

Timestamp                           : Sun Sep  9 11:39:39 2018
Driver Version                      : 396.54

Attached GPUs                       : 1
GPU 00000000:01:00.0
    Product Name                    : GeForce GTX 1050 Ti
    Product Brand                   : GeForce
    Display Mode                    : Enabled
    Display Active                  : Enabled
    Persistence Mode                : Disabled
    Accounting Mode                 : Disabled
    Accounting Mode Buffer Size     : 4000
    Driver Model
        Current                     : N/A
        Pending                     : N/A
    Serial Number                   : N/A
    GPU UUID                        : GPU-ad6b808f-bfa4-92ef-ca00-3e220bbdcd55
    Minor Number                    : 0
    VBIOS Version                   : 86.07.22.00.17
    MultiGPU Board                  : No
    Board ID                        : 0x100
    GPU Part Number                 : N/A
    Inforom Version
        Image Version               : G001.0000.01.03
        OEM Object                  : 1.1
        ECC Object                  : N/A
        Power Management Object     : N/A
    GPU Operation Mode
        Current                     : N/A
        Pending                     : N/A
    GPU Virtualization Mode
        Virtualization mode         : None
    IBMNPU
        Relaxed Ordering Mode       : N/A
    PCI
        Bus                         : 0x01
        Device                      : 0x00
        Domain                      : 0x0000
        Device Id                   : 0x1C8210DE
        Bus Id                      : 00000000:01:00.0
        Sub System Id               : 0x85C11043
        GPU Link Info
            PCIe Generation
                Max                 : 2
                Current             : 2
            Link Width
                Max                 : 16x
                Current             : 16x
        Bridge Chip
            Type                    : N/A
            Firmware                : N/A
        Replays since reset         : 0
        Tx Throughput               : 4000 KB/s
        Rx Throughput               : 24000 KB/s
    Fan Speed                       : 0 %
    Performance State               : P0
    Clocks Throttle Reasons
        Idle                        : Active
        Applications Clocks Setting : Not Active
        SW Power Cap                : Not Active
        HW Slowdown                 : Not Active
            HW Thermal Slowdown     : Not Active
            HW Power Brake Slowdown : Not Active
        Sync Boost                  : Not Active
        SW Thermal Slowdown         : Not Active
    FB Memory Usage
        Total                       : 4032 MiB
        Used                        : 159 MiB
        Free                        : 3873 MiB
    BAR1 Memory Usage
        Total                       : 256 MiB
        Used                        : 5 MiB
        Free                        : 251 MiB
    Compute Mode                    : Default
    Utilization
        Gpu                         : 2 %
        Memory                      : 2 %
        Encoder                     : 0 %
        Decoder                     : 0 %
    Encoder Stats
        Active Sessions             : 0
        Average FPS                 : 0
        Average Latency             : 0
    Ecc Mode
        Current                     : N/A
        Pending                     : N/A
    ECC Errors
        Volatile
            Single Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                CBU                 : N/A
                Total               : N/A
            Double Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                CBU                 : N/A
                Total               : N/A
        Aggregate
            Single Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                CBU                 : N/A
                Total               : N/A
            Double Bit            
                Device Memory       : N/A
                Register File       : N/A
                L1 Cache            : N/A
                L2 Cache            : N/A
                Texture Memory      : N/A
                Texture Shared      : N/A
                CBU                 : N/A
                Total               : N/A
    Retired Pages
        Single Bit ECC              : N/A
        Double Bit ECC              : N/A
        Pending                     : N/A
    Temperature
        GPU Current Temp            : 54 C
        GPU Shutdown Temp           : 102 C
        GPU Slowdown Temp           : 99 C
        GPU Max Operating Temp      : N/A
        Memory Current Temp         : N/A
        Memory Max Operating Temp   : N/A
    Power Readings
        Power Management            : Supported
        Power Draw                  : N/A
        Power Limit                 : 75.00 W
        Default Power Limit         : 75.00 W
        Enforced Power Limit        : 75.00 W
        Min Power Limit             : 52.50 W
        Max Power Limit             : 75.00 W
    Clocks
        Graphics                    : 911 MHz
        SM                          : 911 MHz
        Memory                      : 3504 MHz
        Video                       : 810 MHz
    Applications Clocks
        Graphics                    : N/A
        Memory                      : N/A
    Default Applications Clocks
        Graphics                    : N/A
        Memory                      : N/A
    Max Clocks
        Graphics                    : 1911 MHz
        SM                          : 1911 MHz
        Memory                      : 3504 MHz
        Video                       : 1708 MHz
    Max Customer Boost Clocks
        Graphics                    : N/A
    Clock Policy
        Auto Boost                  : N/A
        Auto Boost Default          : N/A
    Processes
        Process ID                  : 4347
            Type                    : G
            Name                    : /usr/bin/X
            Used GPU Memory         : 126 MiB

чяднт?

nvidia_uvm модуль есть:

λ lsmod | grep nvidia_uvm
nvidia_uvm            815104  0
nvidia              13606912  85 nvidia_uvm,nvidia_modeset

Однако девайса /dev/nvidia-uvm нет.

Есть какой то не костыльный способ создавать его при загрузке (Gentoo OpenRC)?

LeshaInc ()

Если создать девайс вручную

λ grep nvidia-uvm /proc/devices
239 nvidia-uvm
λ mknod -m 666 /dev/nvidia-uvm c 239 0

Проблема остается прежней: unknown error.

В логах пусто.

LeshaInc ()
Ответ на: комментарий от LeshaInc

И на карточках Titan XP новые драйвера не работают для Cuda 9.2, потому использую 396.24 PS. А чем 396.54 лучше 396.24 - тем, что с Cuda 9.2 не работают ?

Deleted ()
Ответ на: комментарий от LeshaInc

Это они опрометчиво сделали, но мне все равно, я использую копию рабочего ебилда 396.24 перепиленный на свое усмотрение.

http://overlays.perestoroniny.ru/cuda/x11-drivers/nvidia-drivers/

PS. 37 и 51 не смотрите, они тоже не взлетают с моими карточками на CUDA, но при этом как видеодрайвер работают отлично, ровно как и 54. Если захотите использовать мой вариант 24го, то не забудьте забрать и каталог files.

А clinfo что выдает на 54м драйвере у Вас? У меня он не находит устройств на 37,51 и 54 - 0, при этом на 24м находит и на 24м все работает, в том числе и CUDA. Напомню, у меня Titan Xp карточки.

Deleted ()
Последнее исправление: Deleted (всего исправлений: 3 )
Ответ на: комментарий от anonymous

Собрал ядро с CONFIG_NUMA=y и CONFIG_CPUSETS=y. CUDA работает на последних драйверах.

λ grep CONFIG_NUMA= /boot/config-4.18.7-gentoo
CONFIG_NUMA=y
λ grep CONFIG_CPUSETS= /boot/config-4.18.7-gentoo
CONFIG_CPUSETS=y
bin/x86_64/linux/release/deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "GeForce GTX 1050 Ti"
  CUDA Driver Version / Runtime Version          9.2 / 9.2
  CUDA Capability Major/Minor version number:    6.1
  Total amount of global memory:                 4032 MBytes (4227858432 bytes)
  ( 6) Multiprocessors, (128) CUDA Cores/MP:     768 CUDA Cores
  GPU Max Clock rate:                            1392 MHz (1.39 GHz)
  Memory Clock rate:                             3504 Mhz
  Memory Bus Width:                              128-bit
  L2 Cache Size:                                 1048576 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)
  Maximum Layered 1D Texture Size, (num) layers  1D=(32768), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(32768, 32768), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 65536
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 2 copy engine(s)
  Run time limit on kernels:                     Yes
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  Device supports Unified Addressing (UVA):      Yes
  Device supports Compute Preemption:            Yes
  Supports Cooperative Kernel Launch:            Yes
  Supports MultiDevice Co-op Kernel Launch:      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 9.2, CUDA Runtime Version = 9.2, NumDevs = 1
Result = PASS
LeshaInc ()
Ответ на: комментарий от Deleted

Вам предлагаю попробовать пересобрать ядро и перестать использовать протухшие драйвера.

clinfo до этого ничего не находил, сейчас все отлично.

LeshaInc ()
Ответ на: комментарий от LeshaInc

Благодарю, с CONFIG_CPUSETS=y, именно её у меня и не было, чтобы последние ядра с последними дровами запустили мои карты. Теперь все с Вышей помощью и у меня работает.

Deleted ()
20 октября 2018 г.
Ответ на: комментарий от anonymous

Благодарю, вот это реактивные.

Deleted ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.