LINUX.ORG.RU
ФорумAdmin

Detected Hardware Unit Hang. Reset adapter unexpectedly.

 , ,


0

2

С некоторой периодичностью возникает проблема с сетевым адаптером.

00:1f.6 Ethernet controller: Intel Corporation Ethernet Connection (11) I219-LM
Apr 12 13:11:31 archlinux kernel: e1000e 0000:00:1f.6 eno2: Detected Hardware Unit Hang:
                                    TDH                  <0>
                                    TDT                  <a>
                                    next_to_use          <a>
                                    next_to_clean        <0>
                                  buffer_info[next_to_clean]:
                                    time_stamp           <10658bdc9>
                                    next_to_watch        <0>
                                    jiffies              <10658c780>
                                    next_to_watch.status <0>
                                  MAC Status             <80083>
                                  PHY Status             <796d>
                                  PHY 1000BASE-T Status  <3800>
                                  PHY Extended Status    <3000>
                                  PCI Status             <10>
Apr 12 13:11:33 archlinux kernel: e1000e 0000:00:1f.6 eno2: NETDEV WATCHDOG: CPU: 4: transmit queue 0 timed out 8134 ms
Apr 12 13:11:33 archlinux kernel: e1000e 0000:00:1f.6 eno2: Reset adapter unexpectedly
Apr 12 13:11:33 archlinux systemd-networkd[1212]: eno2: Lost carrier
Apr 12 13:11:36 archlinux kernel: e1000e 0000:00:1f.6 eno2: NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
Apr 12 13:11:36 archlinux systemd-networkd[1212]: eno2: Gained carrier

После этих ошибок адаптер обычно перестаёт работать.
Пробовал выгружать и загружать заново модуль e1000e через rmmod и modprobe, но это ничего не даёт.
Помогает только перезагрузка.
Отключение всяких gso/gro/tso не помогло. Изменение параметров модуля e1000e тоже ничего не исправило.
Куда дальше копать я хз, может кто сталкивался с таким или подскажет, как этот модуль / адаптер возвращать в работоспособное состояние без постоянной перезагрузки?
Спасибо.


гм, гугление говорит, что ты не одинок в проблеме. Да и на форуме эта проблема обсуждалась ( Например Замучился с сетевухой I219-LM на Dell 5420, посоветуйте внешнюю )

Вопрос: нет ли в этом сетевом контроллере фирмвари? Может её можно обновить?

vel ★★★★★
()
Последнее исправление: vel (всего исправлений: 1)

А что за железка? Писал уже здесь не раз, бывает что ей нужны родные дрова, да, именно так, название модуля такое же как и из ведра, но внутри «чуть более другое» оказывается.

anc ★★★★★
()

Отключение всяких gso/gro/tso не помогло.

Обычно помогает. Как отключал? Проверял, что действительно отключалось? Как проверял?

А то у меня недавно прилетела эскалация проблемы похожей и там коллега просто вписал gso off/tso off в /etc/network/interfaces на дебиан сервере, так же сделал вывод, что «не помогло» и отправил проблему выше. Оказалось, что на системе даже не был установлен ethtool и реальное выключение оффлоадов проблему все же решает.

BOOBLIK ★★★
()

Обычные интеловские дрова. Они паники с igc больше года не могли починить. Искали виноватых везде, только не в своём дефектном железе и таком же говнокоде.

anonymous
()
Ответ на: комментарий от i586
[root@archlinux]# lspci
00:00.0 Host bridge: Intel Corporation 10th Gen Core Processor Host Bridge/DRAM Registers (rev 02)
00:01.0 PCI bridge: Intel Corporation 6th-10th Gen Core Processor PCIe Controller (x16) (rev 02)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200 v5/E3-1500 v5/6th Gen Core Processor PCIe Controller (x8) (rev 02)
00:02.0 VGA compatible controller: Intel Corporation CometLake-H GT2 [UHD Graphics] (rev 05)
00:04.0 Signal processing controller: Intel Corporation Xeon E3-1200 v5/E3-1500 v5/6th Gen Core Processor Thermal Subsystem (rev 02)
00:08.0 System peripheral: Intel Corporation Xeon E3-1200 v5/v6 / E3-1500 v5 / 6th/7th/8th Gen Core Processor Gaussian Mixture Model
00:12.0 Signal processing controller: Intel Corporation Comet Lake PCH Thermal Controller
00:14.0 USB controller: Intel Corporation Comet Lake USB 3.1 xHCI Host Controller
00:14.2 RAM memory: Intel Corporation Comet Lake PCH Shared SRAM
00:14.3 Network controller: Intel Corporation Comet Lake PCH CNVi WiFi
00:15.0 Serial bus controller: Intel Corporation Comet Lake PCH Serial IO I2C Controller #0
00:15.1 Serial bus controller: Intel Corporation Comet Lake PCH Serial IO I2C Controller #1
00:16.0 Communication controller: Intel Corporation Comet Lake HECI Controller
00:16.3 Serial controller: Intel Corporation Comet Lake Keyboard and Text (KT) Redirection
00:17.0 SATA controller: Intel Corporation Device 06d3
00:1c.0 PCI bridge: Intel Corporation Device 06b8 (rev f0)
00:1c.5 PCI bridge: Intel Corporation Comet Lake PCIe Port #6 (rev f0)
00:1d.0 PCI bridge: Intel Corporation Comet Lake PCI Express Root Port #9 (rev f0)
00:1f.0 ISA bridge: Intel Corporation Device 068e
00:1f.3 Audio device: Intel Corporation Comet Lake PCH cAVS
00:1f.4 SMBus: Intel Corporation Comet Lake PCH SMBus Controller
00:1f.5 Serial bus controller: Intel Corporation Comet Lake PCH SPI Controller
00:1f.6 Ethernet controller: Intel Corporation Ethernet Connection (11) I219-LM
02:00.0 3D controller: NVIDIA Corporation GP108M [GeForce MX250] (rev a1)
03:00.0 PCI bridge: Intel Corporation JHL7540 Thunderbolt 3 Bridge [Titan Ridge 2C 2018] (rev 06)
04:00.0 PCI bridge: Intel Corporation JHL7540 Thunderbolt 3 Bridge [Titan Ridge 2C 2018] (rev 06)
04:01.0 PCI bridge: Intel Corporation JHL7540 Thunderbolt 3 Bridge [Titan Ridge 2C 2018] (rev 06)
04:02.0 PCI bridge: Intel Corporation JHL7540 Thunderbolt 3 Bridge [Titan Ridge 2C 2018] (rev 06)
05:00.0 System peripheral: Intel Corporation JHL7540 Thunderbolt 3 NHI [Titan Ridge 2C 2018] (rev 06)
3b:00.0 USB controller: Intel Corporation JHL7540 Thunderbolt 3 USB Controller [Titan Ridge 2C 2018] (rev 06)
3c:00.0 Unassigned class [ff00]: Realtek Semiconductor Co., Ltd. RTS525A PCI Express Card Reader (rev 01)
3d:00.0 Non-Volatile memory controller: Kingston Technology Company, Inc. NV1 NVMe SSD SM2263XT (DRAM-less) (rev 03)

В dmesg спустя неделю 400к+ строк, большая часть из которых как раз ошибки с Reset adapter unexpectedly.
Выложить только ту часть, которая идёт до момента логина или что-то более конкретное?

Sorcus
() автор топика
Ответ на: комментарий от anonymous

Ммм… Bridge есть, но eno2 с ним вроде никак не связан.
Интерфейсы на хосте.

[root@archlinux]# ip link
2: eno2: <NO-CARRIER,BROADCAST,MULTICAST,UP> mtu 1500 qdisc fq_codel state DOWN mode DEFAULT group default qlen 1000
    altname enp0s31f6
5: bridge: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP mode DEFAULT group default qlen 1000
6: wg: <POINTOPOINT,NOARP,UP,LOWER_UP> mtu 1420 qdisc noqueue state UNKNOWN mode DEFAULT group default qlen 1000

Интерфейсы внутри network namespace.

[root@archlinux]# ip netns exec vpn ip link
3: wlo1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP mode DORMANT group default qlen 1000
    altname wlp0s20f3
19: enp0s20f0u2c4i2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP mode DEFAULT group default qlen 1000

enp0s20f0u2c4i2 это телефон, работающий в качестве модема по USB.
bridge используется для systemd-nspawn контейнеров и существует сам по себе.

[root@archlinux]# cat /etc/systemd/network/10-bridge.netdev 
[NetDev]
Name = bridge
Kind = bridge
[root@archlinux]# cat /etc/systemd/network/10-bridge.network 
[Match]
Name = bridge

[Network]
Address = x.x.x.x/x
DHCPServer = true
IPForward = true
IPv6SendRA = true

[DHCPServer]
EmitDNS = true
DNS = x.x.x.x

[IPv6SendRA]
EmitDNS = true
DNS = x:x:x::x

[IPv6Prefix]
Prefix = x:x:x::/x
Assign = true

Весь трафик идёт в wg интерфейс, который слинкован с network namespace (vpn).
В eno2 идёт трафик с роутера и дальше тоже в wg, т.к. единственный маршрут это default dev wg scope link.

Sorcus
() автор топика
Ответ на: комментарий от Sorcus

Сегодня после перезагрузки несколько раз словил ошибку с полным зависанием системы.
В логе повторяющиеся блоки выделил с помощью -//-, т.к. иначе не влезает в лимиты.

BUG: scheduling while atomic: kworker/3:2/538/0x00000002
Modules linked in: 8021q garp mrp wireguard curve25519_x86_64 libchacha20poly1305 poly1305_x86_64 libcurve25519_generic ip6_udp_tunnel udp_tunnel snd_seq_dummy snd_hrtimer snd_seq snd_seq_device bridge stp llc nft_ct nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 ipheth nf_tables libcrc32c crc32c_generic btusb uvcvideo btrtl videobuf2_vmalloc btintel uvc btbcm videobuf2_memops btmtk videobuf2_v4l2 videodev bluetooth videobuf2_common mc apple_mfi_fastcharge ecdh_generic crc16 joydev mousedev vfat fat hid_multitouch hid_generic snd_sof_pci_intel_cnl snd_sof_intel_hda_common soundwire_intel snd_sof_intel_hda_mlink soundwire_cadence snd_sof_intel_hda snd_sof_pci snd_sof_xtensa_dsp snd_hda_codec_hdmi snd_sof snd_sof_utils intel_uncore_frequency soundwire_generic_allocation intel_uncore_frequency_common soundwire_bus snd_soc_skl snd_ctl_led snd_soc_hdac_hda snd_hda_ext_core snd_soc_sst_ipc snd_soc_sst_dsp snd_soc_acpi_intel_match intel_tcc_cooling snd_soc_acpi x86_pkg_temp_thermal intel_powerclamp snd_soc_core snd_hda_codec_realtek coretemp snd_hda_codec_generic snd_compress ac97_bus iwlmvm snd_pcm_dmaengine kvm_intel snd_hda_intel dell_rbtn mac80211 snd_intel_dspcfg kvm snd_intel_sdw_acpi libarc4 processor_thermal_device_pci_legacy processor_thermal_device snd_hda_codec processor_thermal_wt_hint dell_laptop processor_thermal_rfim snd_hda_core mei_pxp mei_hdcp mei_wdt irqbypass dell_wmi processor_thermal_rapl iTCO_wdt iwlwifi snd_hwdep intel_rapl_msr intel_rapl_common ucsi_acpi intel_pmc_bxt snd_pcm rapl ee1004 iTCO_vendor_support dell_smbios dell_wmi_sysman processor_thermal_wt_req spi_nor intel_lpss_pci e1000e mei_me dcdbas typec_ucsi snd_timer intel_cstate processor_thermal_power_floor cfg80211 ptp snd intel_lpss intel_uncore firmware_attributes_class dell_smm_hwmon psmouse ledtrig_audio pcspkr i2c_i801 typec i2c_hid_acpi processor_thermal_mbox mtd soundcore mei dell_wmi_descriptor intel_wmi_thunderbolt wmi_bmof thunderbolt pps_core i2c_smbus idma64 rfkill intel_soc_dts_iosf intel_pch_thermal roles i2c_hid int3403_thermal intel_pmc_core int340x_thermal_zone intel_vsec int3400_thermal pmt_telemetry intel_hid pmt_class acpi_thermal_rel pinctrl_cannonlake sparse_keymap acpi_pad mac_hid crypto_user fuse loop nfnetlink ip_tables x_tables f2fs crc32_generic lz4hc_compress lz4_compress nhpoly1305_avx2 nhpoly1305_sse2 nhpoly1305 chacha_generic chacha_x86_64 libchacha adiantum libpoly1305 algif_skcipher af_alg dm_crypt cbc encrypted_keys trusted asn1_encoder tee dm_mod mmc_block i915 crct10dif_pclmul crc32_pclmul crc32c_intel polyval_clmulni polyval_generic gf128mul ghash_clmulni_intel sha512_ssse3 serio_raw sha256_ssse3 rtsx_pci_sdmmc atkbd sha1_ssse3 i2c_algo_bit drm_buddy libps2 mmc_core vivaldi_fmap aesni_intel mxm_wmi ttm nvme crypto_simd intel_gtt nvme_core cryptd spi_intel_pci drm_display_helper video xhci_pci spi_intel rtsx_pci nvme_auth cec xhci_pci_renesas i8042 wmi serio
CPU: 3 PID: 538 Comm: kworker/3:2 Not tainted 6.8.5-arch1-1 #1 5f12b795066ab8d27a5fe9971245067df4fb99ed
Hardware name: Dell Inc. Latitude 5411/07T3FK, BIOS 1.4.3 12/23/2020
Workqueue: events e1000_watchdog_task [e1000e]
Call Trace:
 <TASK>
 dump_stack_lvl+0x47/0x60
 __schedule_bug+0x56/0x70
 __schedule+0x10f0/0x1520
 ? place_entity+0x1b/0xf0
 ? ktime_get+0x3c/0xa0
 ? lapic_next_deadline+0x2c/0x40
 ? hrtimer_start_range_ns+0x25b/0x350
 schedule+0x32/0xd0
 schedule_hrtimeout_range_clock+0xbe/0x140
 ? __pfx_hrtimer_wakeup+0x10/0x10
 usleep_range_state+0x64/0x90
 e1000e_read_phy_reg_mdic+0x87/0x280 [e1000e fb07978d01503861146aa67f737f75ae3542f3bf]
 e1000e_update_stats+0x513/0x730 [e1000e fb07978d01503861146aa67f737f75ae3542f3bf]
 e1000_watchdog_task+0xe7/0xab0 [e1000e fb07978d01503861146aa67f737f75ae3542f3bf]
 process_one_work+0x178/0x350
 worker_thread+0x30f/0x450
 ? __pfx_worker_thread+0x10/0x10
 kthread+0xe5/0x120
 ? __pfx_kthread+0x10/0x10
 ret_from_fork+0x31/0x50
 ? __pfx_kthread+0x10/0x10
 ret_from_fork_asm+0x1b/0x30
 </TASK>
watchdog: BUG: soft lockup - CPU#3 stuck for 26s! [kworker/3:1:136]
CPU: 3 PID: 136 Comm: kworker/3:1 Tainted: G        W          6.8.5-arch1-1 #1 5f12b795066ab8d27a5fe9971245067df4fb99ed
Workqueue: events linkwatch_event
RIP: 0010:native_queued_spin_lock_slowpath+0x6e/0x2e0
Code: 77 7f f0 0f ba 2b 08 0f 92 c2 8b 03 0f b6 d2 c1 e2 08 30 e4 09 d0 3d ff 00 00 00 77 5b 85 c0 74 10 0f b6 03 84 c0 74 09 f3 90 <0f> b6 03 84 c0 75 f7 b8 01 00 00 00 66 89 03 65 48 ff 05 c3 48 65
RSP: 0018:ffffa7ce40523bc0 EFLAGS: 00000202
RAX: 0000000000000001 RBX: ffff9c688fc1f428 RCX: 0000000000000000
RDX: 0000000000000000 RSI: 0000000000000001 RDI: ffff9c688fc1f428
RBP: ffff9c68be0ee134 R08: 0000000000000000 R09: 0000000000000004
R10: ffff9c68be0ee1fc R11: 0000000000000010 R12: ffff9c688fc1f428
R13: ffff9c68be0ee000 R14: 0000000000000000 R15: 0000000000000000
FS:  0000000000000000(0000) GS:ffff9c6fdd4c0000(0000) knlGS:0000000000000000
CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
CR2: 00007f475e9fbfd0 CR3: 000000010812c006 CR4: 00000000007706f0
PKRU: 55555554
Call Trace:
 <IRQ>
 ? watchdog_timer_fn+0x1e6/0x270
 ? __pfx_watchdog_timer_fn+0x10/0x10
 ? __hrtimer_run_queues+0x10f/0x2b0
 ? hrtimer_interrupt+0xf8/0x230
 ? __sysvec_apic_timer_interrupt+0x4d/0x140
 ? sysvec_apic_timer_interrupt+0x6d/0x90
 </IRQ>
 <TASK>
 ? asm_sysvec_apic_timer_interrupt+0x1a/0x20
 ? native_queued_spin_lock_slowpath+0x6e/0x2e0
 _raw_spin_lock+0x29/0x30
 e1000e_get_stats64+0x22/0x120 [e1000e fb07978d01503861146aa67f737f75ae3542f3bf]
 dev_get_stats+0x5d/0x110
 rtnl_fill_stats+0x3b/0x130
 rtnl_fill_ifinfo+0x872/0x1580
 ? __alloc_skb+0x8c/0x1a0
 rtmsg_ifinfo_build_skb+0xae/0x120
 rtmsg_ifinfo+0x3c/0x90
 netdev_state_change+0x89/0x90
 linkwatch_do_dev+0x4f/0x60
 __linkwatch_run_queue+0xe1/0x260
 linkwatch_event+0x31/0x40
 process_one_work+0x178/0x350
 worker_thread+0x30f/0x450
 ? __pfx_worker_thread+0x10/0x10
 kthread+0xe5/0x120
 ? __pfx_kthread+0x10/0x10
 ret_from_fork+0x31/0x50
 ? __pfx_kthread+0x10/0x10
 ret_from_fork_asm+0x1b/0x30
 </TASK>
watchdog: BUG: soft lockup - CPU#3 stuck for 52s! [kworker/3:1:136]
CPU: 3 PID: 136 Comm: kworker/3:1 Tainted: G        W    L     6.8.5-arch1-1 #1 5f12b795066ab8d27a5fe9971245067df4fb99ed
Workqueue: events linkwatch_event
RIP: -//-
Call Trace:
 -//-
rcu: INFO: rcu_preempt self-detected stall on CPU
rcu:         3-....: (17999 ticks this GP) idle=dedc/1/0x4000000000000000 softirq=1420/1420 fqs=5998
rcu:         (t=18000 jiffies g=2677 q=108 ncpus=12)
CPU: 3 PID: 136 Comm: kworker/3:1 Tainted: G        W    L     6.8.5-arch1-1 #1 5f12b795066ab8d27a5fe9971245067df4fb99ed
Hardware name: Dell Inc. Latitude 5411/07T3FK, BIOS 1.4.3 12/23/2020
Workqueue: events linkwatch_event
RIP: -//-
Call Trace:
 <IRQ>
 ? rcu_dump_cpu_stacks+0xc4/0x100
 ? rcu_sched_clock_irq+0x32e/0x1050
 ? notifier_call_chain+0x5a/0xd0
 ? timekeeping_update+0xdd/0x130
 ? timekeeping_advance+0x377/0x590
 ? update_process_times+0x74/0xb0
 ? tick_sched_handle+0x21/0x60
 ? tick_nohz_highres_handler+0x6f/0x90
 ? __pfx_tick_nohz_highres_handler+0x10/0x10
 ? __hrtimer_run_queues+0x10f/0x2b0
 ? hrtimer_interrupt+0xf8/0x230
 ? __sysvec_apic_timer_interrupt+0x4d/0x140
 ? sysvec_apic_timer_interrupt+0x6d/0x90
 </IRQ>
 -//-
watchdog: BUG: soft lockup - CPU#3 stuck for 82s! [kworker/3:1:136]
Sorcus
() автор топика
Ответ на: комментарий от i586

Я бы и на нестабильном поискал, но я не знаю как эту проблему стабильно воспроизвести.
Последнее время проблема не проявляется, хотя пару раз ещё и USB отвалился аналогично, к которому телефон подключен.
Возможно в материнке проблема, т.к. зарядка через type-c тоже работает только в одном положении.

Sorcus
() автор топика