LINUX.ORG.RU

Irq 16: nobody cared (try booting with the «irqpoll» option)

 , , ,


0

1

Доброго времени суток!

Установил внешнюю видеокарту nvidia gt 1030 к ноутбуку c intel core i3 через mini-pci вход от wifi модуля с помощью док станции .

Всё отлично работает, за исключением периодических фризов на Ubuntu 18.04, пробовал разные драйвера.

Перейдя на CentOs 7, запустил desktop на intel hd с драйвером Ivi Bridge Mobile, а nvidia оставил только для вычислений в cuda программах.

Однако, проблему это не решило. Карточка по прежнему отваливается.

Теперь моя история:

После старта системы запускаю nvidia-persistenced, чтобы включить карточку.

nvidia-smi карточку прекрасно видит, показывает, что она включена, как и должно быть.

После некоторого времени работы обнаруживаю, что курсор мыши начинает сильно лагать, при этом если пользоваться touchpadом, то всё нормально. Мышь(беспроводная) подключена через usb 2.0 вход, который шлейфом соединяется с материнкой. Интересный факт, если подключить мышь к usb 3.0, который припаян к плате напрямую, то мышь лагать перестаёт.

Смотрю логи с помощью команды

grep -i kernel /var/log/messages | grep -i irq | less

ACPI: INT_SRC_OVR (bus 0 bus_irq 0 global_irq 2 dfl dfl)
Feb 20 10:38:52 localhost kernel: ACPI: INT_SRC_OVR (bus 0 bus_irq 9 global_irq 9 high level)
Feb 20 10:38:52 localhost kernel: NR_IRQS:327936 nr_irqs:488 0
Feb 20 10:38:52 localhost kernel: IRQ remapping doesn't support X2APIC mode, disable x2apic.
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKA] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKB] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKC] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKD] (IRQs 1 3 4 5 6 *10 11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKE] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKF] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKG] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKH] (IRQs 1 3 4 5 6 10 11 12 14 15) *0, disabled.
Feb 20 10:38:52 localhost kernel: PCI: Using ACPI for IRQ routing
Feb 20 10:38:52 localhost kernel: hpet0: at MMIO 0xfed00000, IRQs 2, 8, 0, 0, 0, 0, 0, 0
Feb 20 10:38:52 localhost kernel: Serial: 8250/16550 driver, 4 ports, IRQ sharing enabled
Feb 20 10:38:52 localhost kernel: ehci-pci 0000:00:1a.0: irq 16, io mem 0xb5919000
Feb 20 10:38:52 localhost kernel: ehci-pci 0000:00:1d.0: irq 20, io mem 0xb5918000
Feb 20 10:38:52 localhost kernel: i8042: PNP: PS/2 Controller [PNP0303:PS2K,PNP0f13:PS2M] at 0x60,0x64 irq 1,12
Feb 20 10:38:52 localhost kernel: serio: i8042 KBD port at 0x60,0x64 irq 1
Feb 20 10:38:52 localhost kernel: serio: i8042 AUX port at 0x60,0x64 irq 12
Feb 20 10:38:52 localhost kernel: r8169 0000:02:00.0 eth0: RTL8106e at 0xffffbef240c58000, a0:48:1c:14:8a:5d, XID 04900000 IRQ 25
Feb 20 10:38:52 localhost kernel: ata1: SATA max UDMA/133 abar m2048@0xb5917000 port 0xb5917100 irq 26
Feb 20 10:38:52 localhost kernel: ata5: SATA max UDMA/133 abar m2048@0xb5917000 port 0xb5917300 irq 26
Feb 20 10:50:43 localhost kernel: irq 16: nobody cared (try booting with the "irqpoll" option)
Feb 20 10:50:43 localhost kernel: <IRQ> [<ffffffff88561e41>] dump_stack+0x19/0x1b
Feb 20 10:50:43 localhost kernel: [<ffffffff87f4cc22>] __report_bad_irq+0x32/0xd0
Feb 20 10:50:43 localhost kernel: [<ffffffff87f4a715>] handle_irq_event_percpu+0x55/0x80
Feb 20 10:50:43 localhost kernel: [<ffffffff87f4a77c>] handle_irq_event+0x3c/0x60
Feb 20 10:50:43 localhost kernel: [<ffffffff87f4ddd9>] handle_fasteoi_irq+0x59/0x110
Feb 20 10:50:43 localhost kernel: [<ffffffff87e2e554>] handle_irq+0xe4/0x1a0
Feb 20 10:50:43 localhost kernel: [<ffffffff885795dd>] do_IRQ+0x4d/0xf0
Feb 20 10:50:43 localhost kernel: [<ffffffff882fa4b0>] usb_hcd_irq
Feb 20 10:50:43 localhost kernel: Disabling IRQ #16

Далее, проверяю, что мне даёт nvidia-smi:

Unable to determine the device handle for GPU 0000:01:00.0: GPU is lost. Reboot the system to recover this GPU

Отвалилась. Думаю, что эта же проблема приводила к фризам на Ubuntu при запуске дисплея на nvidia gpu. На Ubuntu 18.04 я не мог запустить дисплей от intel HD, так, чтобы потом пользоваться nvidia для вычислений, т.к. не мог запустить nvidia-persitenced, чтобы включить карточку. А это уже, наверное, отдельная тема.

Поискал готовое решение проблемы, вроде как можно попробовать добавить опцию при запуске ядра noirqdebug или irqpoll, однако, как я понимаю, это консервативные решения, а проблема глубже: либо в багованности pci контроллера, либо в драйверах, а может в самом eGPU. Поэтому, интересны последствия консервативного решения, чем расплачиваться, производительностью?

Ещё интересна строчка: IRQ remapping doesn't support X2APIC mode, disable x2apic. Не совсем понимаю, что она значит.

lspci:

l00:00.0 Host bridge: Intel Corporation 3rd Gen Core processor DRAM Controller (rev 09)
00:02.0 VGA compatible controller: Intel Corporation 3rd Gen Core processor Graphics Controller (rev 09)
00:14.0 USB controller: Intel Corporation 7 Series/C210 Series Chipset Family USB xHCI Host Controller (rev 04)
00:16.0 Communication controller: Intel Corporation 7 Series/C216 Chipset Family MEI Controller #1 (rev 04)
00:1a.0 USB controller: Intel Corporation 7 Series/C216 Chipset Family USB Enhanced Host Controller #2 (rev 04)
00:1b.0 Audio device: Intel Corporation 7 Series/C216 Chipset Family High Definition Audio Controller (rev 04)
00:1c.0 PCI bridge: Intel Corporation 7 Series/C216 Chipset Family PCI Express Root Port 1 (rev c4)
00:1c.1 PCI bridge: Intel Corporation 7 Series/C210 Series Chipset Family PCI Express Root Port 2 (rev c4)
00:1c.2 PCI bridge: Intel Corporation 7 Series/C210 Series Chipset Family PCI Express Root Port 3 (rev c4)
00:1d.0 USB controller: Intel Corporation 7 Series/C216 Chipset Family USB Enhanced Host Controller #1 (rev 04)
00:1f.0 ISA bridge: Intel Corporation HM76 Express Chipset LPC Controller (rev 04)
00:1f.2 SATA controller: Intel Corporation 7 Series Chipset Family 6-port SATA Controller [AHCI mode] (rev 04)
00:1f.3 SMBus: Intel Corporation 7 Series/C216 Chipset Family SMBus Controller (rev 04)
01:00.0 VGA compatible controller: NVIDIA Corporation GP108 [GeForce GT 1030] (rev a1)
01:00.1 Audio device: NVIDIA Corporation GP108 High Definition Audio Controller (rev a1)
02:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL810xE PCI Express Fast Ethernet controller (rev 07)

Сейчас попробую вписать в опции ядра irqpoll, отпишусь, пропала ли проблема.

Вообщем, буду рад, увидеть ваши советы: из-за чего эта проблема может возникать и нужно ли отказываться от внешней gpu, поможет ли смена видеокарты?



Последнее исправление: whosuka (всего исправлений: 4)

Ответ на: комментарий от NiTr0

Живая. Запускал рендер на blender, meshroom. При вышеописнном сбое куллеры крутятся, после перезагрузки всё работает снова.

whosuka
() автор топика
Ответ на: комментарий от NiTr0

А как понять, что именно станция шалит?

whosuka
() автор топика

Повесил свою карту на райзер.

У меня такое было, когда карта на райзере и статика где-то стукнет. Решил увлажнителем.

Также раз было по ошибке дернул питания на райзере, тоже карта отвалилась.


1050ti на райзере, 1080 в комп'ютере стоит.

ymuv ★★★★
()

проблема глубже: либо в багованности pci контроллера, либо в драйверах, а может в самом eGPU.

Либо в том, через что ты подключаешь карточку.

А как понять, что именно станция шалит

Попробуй свои «консервативные» решения.

После некоторого времени работы обнаруживаю, что курсор мыши начинает сильно лагать, при этом если пользоваться touchpadом, то всё нормально. Мышь(беспроводная) подключена через usb 2.0 вход, который шлейфом соединяется с материнкой. Интересный факт, если подключить мышь к usb 3.0, который припаян к плате напрямую, то мышь лагать перестаёт.

Модель и платформу ноутбука озвучь.

Al-kaschenko
()
Ответ на: комментарий от Al-kaschenko

Уже 7 часов не отваливается после запуска ядра с опцией irqpoll. Обычно баг проявлялся в течении двух часов.

тот же лог по irq c момента последней перезагрузки:

Feb 20 13:08:49 localhost kernel: Command line: BOOT_IMAGE=/vmlinuz-3.10.0-957.5.1.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet nouveau.modeset=0 irqpoll
Feb 20 13:08:49 localhost kernel: ACPI: INT_SRC_OVR (bus 0 bus_irq 0 global_irq 2 dfl dfl)
Feb 20 13:08:49 localhost kernel: ACPI: INT_SRC_OVR (bus 0 bus_irq 9 global_irq 9 high level)
Feb 20 13:08:49 localhost kernel: Kernel command line: BOOT_IMAGE=/vmlinuz-3.10.0-957.5.1.el7.x86_64 root=/dev/mapper/centos-root ro crashkernel=auto rd.lvm.lv=centos/root rd.lvm.lv=centos/swap rhgb quiet nouveau.modeset=0 irqpoll
Feb 20 13:08:49 localhost kernel: Misrouted IRQ fixup and polling support enabled
Feb 20 13:08:49 localhost kernel: NR_IRQS:327936 nr_irqs:488 0
Feb 20 13:08:49 localhost kernel: IRQ remapping doesn't support X2APIC mode, disable x2apic.
Feb 20 13:08:49 localhost kernel: ACPI: PCI Interrupt Link [LNKA] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 13:08:49 localhost kernel: ACPI: PCI Interrupt Link [LNKB] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 13:08:49 localhost kernel: ACPI: PCI Interrupt Link [LNKC] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 13:08:49 localhost kernel: ACPI: PCI Interrupt Link [LNKD] (IRQs 1 3 4 5 6 *10 11 12 14 15)
Feb 20 13:08:49 localhost kernel: ACPI: PCI Interrupt Link [LNKE] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 13:08:49 localhost kernel: ACPI: PCI Interrupt Link [LNKF] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 13:08:49 localhost kernel: ACPI: PCI Interrupt Link [LNKG] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 13:08:49 localhost kernel: ACPI: PCI Interrupt Link [LNKH] (IRQs 1 3 4 5 6 10 11 12 14 15) *0, disabled.
Feb 20 13:08:49 localhost kernel: PCI: Using ACPI for IRQ routing
Feb 20 13:08:49 localhost kernel: hpet0: at MMIO 0xfed00000, IRQs 2, 8, 0, 0, 0, 0, 0, 0
Feb 20 13:08:49 localhost kernel: Serial: 8250/16550 driver, 4 ports, IRQ sharing enabled
Feb 20 13:08:49 localhost kernel: ehci-pci 0000:00:1a.0: irq 16, io mem 0xb5919000
Feb 20 13:08:49 localhost kernel: ehci-pci 0000:00:1d.0: irq 20, io mem 0xb5918000
Feb 20 13:08:49 localhost kernel: i8042: PNP: PS/2 Controller [PNP0303:PS2K,PNP0f13:PS2M] at 0x60,0x64 irq 1,12
Feb 20 13:08:49 localhost kernel: serio: i8042 KBD port at 0x60,0x64 irq 1
Feb 20 13:08:49 localhost kernel: serio: i8042 AUX port at 0x60,0x64 irq 12
Feb 20 13:08:49 localhost kernel: r8169 0000:02:00.0 eth0: RTL8106e at 0xffffb4a1c0c58000, a0:48:1c:14:8a:5d, XID 04900000 IRQ 25
Feb 20 13:08:50 localhost kernel: ata1: SATA max UDMA/133 abar m2048@0xb5917000 port 0xb5917100 irq 26
Feb 20 13:08:50 localhost kernel: ata5: SATA max UDMA/133 abar m2048@0xb5917000 port 0xb5917300 irq 26

Платфора и модель:

uname -a:

Linux localhost.localdomain 3.10.0-957.5.1.el7.x86_64 #1 SMP Fri Feb 1 14:54:57 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

lshw:

description: Notebook
    product: HP Pavilion 15 Notebook PC (E7G08EA#ACB)
    vendor: Hewlett-Packard
    version: 0897100000304100000610100
    serial: 5CD33680SS
    width: 64 bits
    capabilities: smbios-2.7 dmi-2.7 smp vsyscall32
    configuration: boot=normal chassis=notebook family=103C_5335KV G=N L=CON B=HP S=PAV X=Null sku=E7G08EA#ACB uuid=35434433-3336-3830-5353-A0481C148A5D
  *-core
       description: Motherboard
       product: 2186
       vendor: Hewlett-Packard
       physical id: 0
       version: 35.12
       serial: PDXDC008J5F5YZ
       slot: Type2 - Board Chassis Location
     *-memory
          description: System Memory
          physical id: 0
          slot: System board or motherboard
          size: 8GiB
        *-bank:0
             description: SODIMM DDR3 Synchronous Unbuffered (Unregistered) 1600 MHz (0.6 ns)
             product: 78.B2GCZ.AU00C
             vendor: Unknown
             physical id: 0
             serial: 01518493
             slot: Bottom-Slot 1(top)
             size: 4GiB
             width: 64 bits
             clock: 1600MHz (0.6ns)
        *-bank:1
             description: SODIMM DDR3 Synchronous Unbuffered (Unregistered) 1600 MHz (0.6 ns)
             product: 8KTF51264HZ-1G6E1
             vendor: Micron Technology
             physical id: 1
             serial: 411BA305
             slot: Bottom-Slot 2(under)
             size: 4GiB
             width: 64 bits
             clock: 1600MHz (0.6ns)
     *-firmware
          description: BIOS
          vendor: Insyde
          physical id: 9
          version: F.71
          date: 03/13/2017
          size: 128KiB
          capacity: 2560KiB
          capabilities: pci upgrade shadowing cdboot bootselect edd int13floppynec int13floppytoshiba int13floppy360 int13floppy1200 int13floppy720 int13floppy2880 int9keyboard int10video acpi usb biosbootspecification uefi
     *-cpu
          description: CPU
          product: Intel(R) Core(TM) i3-3217U CPU @ 1.80GHz
          vendor: Intel Corp.
          vendor_id: GenuineIntel
          physical id: 1e
          bus info: cpu@0
          version: Intel(R) Core(TM) i3-3217U CPU @ 1.80GHz
          serial: To Be Filled By O.E.M.
          slot: U3E1
          size: 903MHz
          capacity: 1800MHz
          width: 64 bits
          clock: 100MHz
          capabilities: lm fpu fpu_exception wp vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx rdtscp x86-64 constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr pdcm pcid sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer xsave avx f16c lahf_lm epb ssbd ibrs ibpb stibp tpr_shadow vnmi flexpriority ept vpid fsgsbase smep erms xsaveopt dtherm ida arat pln pts spec_ctrl intel_stibp flush_l1d cpufreq
          configuration: cores=2 enabledcores=2 threads=4
        *-cache:0
             description: L1 cache
             physical id: 20
             slot: L1 Cache
             size: 32KiB
             capacity: 32KiB
             capabilities: internal write-through instruction
             configuration: level=1
        *-cache:1
             description: L2 cache
             physical id: 21
             slot: L2 Cache
             size: 256KiB
             capacity: 256KiB
             capabilities: internal write-through unified
             configuration: level=2
        *-cache:2
             description: L3 cache
             physical id: 22
             slot: L3 Cache
             size: 3MiB
             capacity: 3MiB
             capabilities: internal write-back unified
             configuration: level=3
     *-cache
          description: L1 cache
          physical id: 1f
          slot: L1 Cache
          size: 32KiB
          capacity: 32KiB
          capabilities: internal write-through data
          configuration: level=1
     *-pci
          description: Host bridge
          product: 3rd Gen Core processor DRAM Controller
          vendor: Intel Corporation
          physical id: 100
          bus info: pci@0000:00:00.0
          version: 09
          width: 32 bits
          clock: 33MHz
          configuration: driver=ivb_uncore
          resources: irq:0

Прошу прощения за длинные сообщения, спойлеры

почему-то не могу добавить.

whosuka
() автор топика
Ответ на: комментарий от whosuka

Спойлеры тут только в новостях работают.

До кучи на венде ещё проверить неплохо. Но, видимо, проблема софтовая.

Al-kaschenko
()
Ответ на: комментарий от whosuka

Если что irqpoll адово, очень адово просаживает производительность. Ты с этим ещё столкнёшься, хотя кажется будто всё работает, да. Потом окажется, что всё ещё ломается. Эффект плацебо, всё такое.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.