LINUX.ORG.RU

Откидывается Intel e1000e на несколько секунд/вообще

 ,


0

2

Есть сервер который принимает интернет и раздает его в локальную сеть, с настройками все отлично. Linux Ubuntu Server 16.04.2. Dmesg вот что выдает:

[ 2871.756035] ------------[ cut here ]------------
[ 2871.756061] WARNING: CPU: 6 PID: 0 at /build/linux-9yOF0g/linux-4.4.0/net/sched/sch_generic.c:306 dev_watchdog

+0x237/0x240()
[ 2871.756079] NETDEV WATCHDOG: enp4s0f1 (e1000e): transmit queue 0 timed out
[ 2871.756086] Modules linked in: ipt_REJECT nf_reject_ipv4 xt_conntrack ipt_MASQUERADE nf_nat_masquerade_ipv4 

iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 iptable_filter ip_tables x_tables ipmi_ssif coretemp 

kvm_intel kvm irqbypass serio_raw lpc_ich 8250_fintek shpchp i5000_edac edac_core mac_hid i5k_amb ipmi_si 

ipmi_msghandler nf_nat_pptp nf_nat_proto_gre nf_conntrack_pptp nf_conntrack_proto_gre nf_nat nf_conntrack ib_iser 

rdma_cm iw_cm ib_cm ib_sa ib_mad ib_core ib_addr iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi autofs4 btrfs 

raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1 raid0 

multipath linear amdkfd amd_iommu_v2 radeon i2c_algo_bit ttm drm_kms_helper syscopyarea sysfillrect sysimgblt 

fb_sys_fops ahci e1000e ptp psmouse
[ 2871.756148]  drm libahci pata_acpi pps_core fjes
[ 2871.756155] CPU: 6 PID: 0 Comm: swapper/6 Not tainted 4.4.0-66-generic #87-Ubuntu
[ 2871.756157] Hardware name: Intel S5000PSL/S5000PSL, BIOS S5000.86B.15.00.0101.110920101604 11/09/2010
[ 2871.756159]  0000000000000286 1c9657f6f918213b ffff88025fd83d98 ffffffff813f8083
[ 2871.756162]  ffff88025fd83de0 ffffffff81d6fd00 ffff88025fd83dd0 ffffffff810812d2
[ 2871.756165]  0000000000000000 ffff88003550dc80 0000000000000006 ffff880035074000
[ 2871.756167] Call Trace:
[ 2871.756170]  <IRQ>  [<ffffffff813f8083>] dump_stack+0x63/0x90
[ 2871.756179]  [<ffffffff810812d2>] warn_slowpath_common+0x82/0xc0
[ 2871.756182]  [<ffffffff8108136c>] warn_slowpath_fmt+0x5c/0x80
[ 2871.756185]  [<ffffffff81757967>] dev_watchdog+0x237/0x240
[ 2871.756188]  [<ffffffff81757730>] ? qdisc_rcu_free+0x40/0x40
[ 2871.756192]  [<ffffffff810ecd55>] call_timer_fn+0x35/0x120
[ 2871.756194]  [<ffffffff81757730>] ? qdisc_rcu_free+0x40/0x40
[ 2871.756197]  [<ffffffff810ed70a>] run_timer_softirq+0x23a/0x2f0
[ 2871.756200]  [<ffffffff81085db1>] __do_softirq+0x101/0x290
[ 2871.756202]  [<ffffffff810860b3>] irq_exit+0xa3/0xb0
[ 2871.756206]  [<ffffffff8183f0a2>] smp_apic_timer_interrupt+0x42/0x50
[ 2871.756210]  [<ffffffff8183d362>] apic_timer_interrupt+0x82/0x90
[ 2871.756211]  <EOI>  [<ffffffff816cf8de>] ? cpuidle_enter_state+0x10e/0x2b0
[ 2871.756217]  [<ffffffff816cfab7>] cpuidle_enter+0x17/0x20
[ 2871.756221]  [<ffffffff810c4522>] call_cpuidle+0x32/0x60
[ 2871.756223]  [<ffffffff816cfa93>] ? cpuidle_select+0x13/0x20
[ 2871.756225]  [<ffffffff810c47e0>] cpu_startup_entry+0x290/0x350
[ 2871.756228]  [<ffffffff810517c4>] start_secondary+0x154/0x190
[ 2871.756231] ---[ end trace 6fbe9fec0792e945 ]---
[ 2871.758481] e1000e 0000:04:00.1 enp4s0f1: Reset adapter unexpectedly
[ 2875.539366] e1000e: enp4s0f1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
[ 3672.071450] perf interrupt took too long (2540 > 2500), lowering kernel.perf_event_max_sample_rate to 50000
[ 9647.160290] nf_conntrack: automatic helper assignment is deprecated and it will be removed soon. Use the 

iptables CT target to attach helpers instead.
[ 9854.844813] perf interrupt took too long (5005 > 5000), lowering kernel.perf_event_max_sample_rate to 25000
Все на мат. плате 2xe1000e, и оба страдают от этого, под виндой без разговоров в этот момент синяк с намеком на драйвер Intel Networking, есть второй сервер с такой же сетевухой, был под виндой, и так же синяки. Но винда для меня не кошерна. С утра сегодня интернетная отвалилась вообще(Локальная которая в логах отвалилась недавно на 4 секунды), пришлось перезапускать сервер.

Ответ на: комментарий от anonymous

Пришли обновы 3 по initrd и сопутствующей

Пришли обновы 3 по initrd и сопутствующей, посмотрим что будет, пакеты по второй сетевухе кстати дропает(Она смотрит в локалку), что с этим делать не знаю

Cherbet ()
Ответ на: Опять от Cherbet

Обновил

То-ли у меня с утра интернет глючил, но когда приехал на работу, оказалось что работает, вот, это после обновления ядра по ветке cannocial, обновил до 4.10.3, посмотрим что будет. Пакеты дроппает, из-за чего? Кстати вот ещё: [ 0.694910] ACPI Error: Field [CPB3] at 96 exceeds Buffer [NULL] size 64 (bits) (20160930/dsopcode-236) [ 0.694935] ACPI Error: Method parse/execution failed [\_SB._OSC] (Node ffff9f85170abcf8), AE_AML_BUFFER_LIMIT (20160930/psparse-543)

Cherbet ()

У тебя железо дохлое, и ты хочешь его вылечить программно. Правильно мыслите товарищ, с таким подходом берут в руководство.

lenin386 ★★★ ()
Ответ на: комментарий от lenin386

Ну мне говорили что e1000e говно, а оно и подтверждается. Интернет пропадает сейчас на новом ядре [ 2969.756102] perf: interrupt took too long (2573 > 2500), lowering kernel.perf_event_max_sample_rate to 77500 [ 3734.108046] perf: interrupt took too long (3227 > 3216), lowering kernel.perf_event_max_sample_rate to 61750 [ 5929.942751] perf: interrupt took too long (4039 > 4033), lowering kernel.perf_event_max_sample_rate to 49500 [10956.745190] perf: interrupt took too long (5164 > 5048), lowering kernel.perf_event_max_sample_rate to 38500

Cherbet ()
Ответ на: комментарий от bass
           CPU0       CPU1       CPU2       CPU3       CPU4       CPU5       CPU6       CPU7
  0:     187631     185199     187603     187619     182224     185160       5741       5210   IO-APIC   2-edge      timer
  1:          0          1          1          1          0          0          0          0   IO-APIC   1-edge      i8042
  8:          0          0          0          0          0          1          0          0   IO-APIC   8-edge      rtc0
  9:          0          0          0          0          0          0          0          0   IO-APIC   9-fasteoi   acpi
 12:          0          0          0          2          0          1          1          0   IO-APIC  12-edge      i8042
 14:         15       3990         22         18       3794       3992         15         17   IO-APIC  14-edge      ata_piix
 15:          0          0          0          0          0          0          0          0   IO-APIC  15-edge      ata_piix
 17:          0          0          0          0          0          0          1          0   IO-APIC  17-fasteoi   radeon
 20:        755        711        751        742      17356        738        758        741   IO-APIC  20-fasteoi   ahci[0000:00:1f.2]
 22:          0          0          0          0          0          0          0          0   IO-APIC  22-fasteoi   uhci_hcd:usb3, uhci_hcd:usb5
 23:          0          0          0          0          0          0          0          0   IO-APIC  23-fasteoi   ehci_hcd:usb1, uhci_hcd:usb2, uhci_hcd:usb4
 25:        908        896        865        855        862        924   17664969        838   PCI-MSI 2097152-edge      enp4s0f0
 26:        854        874        877        882        889        853        845   15036857   PCI-MSI 2099200-edge      enp4s0f1
NMI:         34         25         19         25         16         13        506        414   Non-maskable interrupts
LOC:      90492     464641      38282      97746      79326      65738     258231     155097   Local timer interrupts
SPU:          0          0          0          0          0          0          0          0   Spurious interrupts
PMI:         34         25         19         25         16         13        506        414   Performance monitoring interrupts
IWI:      41194     182889      13666      31190      34224      27371      89006      70018   IRQ work interrupts
RTR:          0          0          0          0          0          0          0          0   APIC ICR read retries
RES:      24171      13756      14312      68338      13357      17432      13278      20000   Rescheduling interrupts
CAL:      13002       4512       2570       4679       2106       4774       3276       4101   Function call interrupts
TLB:        200        163        151        181        170        150        233        178   TLB shootdowns
TRM:          0          0          0          0          0          0          0          0   Thermal event interrupts
THR:          0          0          0          0          0          0          0          0   Threshold APIC interrupts
DFR:          0          0          0          0          0          0          0          0   Deferred Error APIC interrupts
MCE:          0          0          0          0          0          0          0          0   Machine check exceptions
MCP:         39         39         39         39         39         39         39         39   Machine check polls
ERR:          0
MIS:          0
PIN:          0          0          0          0          0          0          0          0   Posted-interrupt notification event
PIW:          0          0          0          0          0          0          0          0   Posted-interrupt wakeup event
Cherbet ()
Ответ на: комментарий от bass

cat /proc/interrupts

Товарищ. Это не надо со времен ISA. PCI устройства делят прерывания без проблем вообще. Ну, конечно, не вообще без проблем, но это не те проблемы.

lenin386 ★★★ ()
Ответ на: комментарий от lenin386

Под виндой просто синяк выходит, есть другая машина с такой же сетевухой, на винде была, тоже синячит. Что делать, ставить дискретные сетевые с отключением в BIOS'e этих??

Cherbet ()

Можно попробовать /usr/sbin/ethtool -K enp4s0f1 tso off

AS ★★★★★ ()
Ответ на: комментарий от lenin386

У тебя железо дохлое, и ты хочешь его вылечить программно

Несовсем так. У Интел слишком много фич, некоторые не только полезны, но и вредны в каких-то случаях.

AS ★★★★★ ()
Ответ на: комментарий от Cherbet

Ну, например, если на одном прерывании висит несколько устройств, то все прерывания от этих устройств должны обрабатываться одним ядром. Не думаю, что тебя это волнует, тем более, что у тебя пересечений по прерываниям и нет.

lenin386 ★★★ ()
Последнее исправление: lenin386 (всего исправлений: 1 )
Ответ на: комментарий от AS

Несовсем так

Щто значит не совсем так. Если венда выпадает в синий экран, Линукс глючит, это, по-твоему, штатное поведение сетевых карт Intel ?

lenin386 ★★★ ()
Ответ на: комментарий от lenin386

то все прерывания от этих устройств должны обрабатываться одним ядром

Зависит от оборудования. У некоторых чипсетов контроллер позволяет раскидать обработку по разным ядрам.

AS ★★★★★ ()
Ответ на: комментарий от Cherbet

Что делать, ставить дискретные сетевые с отключением в BIOS'e этих??

Есть такой вариант, но гарантии 100% дать нельзя. Возможно, неисправен чипсет материнки.

lenin386 ★★★ ()
Ответ на: комментарий от lenin386

по-твоему, штатное поведение сетевых карт Intel ?

Reset adapter unexpectedly - не то, чтобы штатное, но обычное поведение, пока tso не отключишь. У меня этих Intel, которые с e1000e работают, вагон. Не могу утверждать, что оно у всех, но у львиной доли точно. Я просто сейчас это по-умолчаню в конфигурацию интерфейсов добавляю.

AS ★★★★★ ()
Ответ на: комментарий от Cherbet

Значит, такие серверы, бывает. Я как-то долбался с двумя материнками, не мог понять в чём дело. Виснут. Две совершенно новые. Не хотел верить в глючность материнок, думал, что не бывает две новых материнки одинаково глючные. Оказалось, что бывает.

lenin386 ★★★ ()
Последнее исправление: lenin386 (всего исправлений: 1 )
Ответ на: комментарий от Cherbet

Если уж 2 сервера так себя ведут, что уж тут говорить.

tso отключай, и смотри. Неслабая вероятность, что поможет. До кучи можно и «gso off gro off» - это на tc влияет, если, вдруг, надо будет.

AS ★★★★★ ()
Ответ на: комментарий от Cherbet

А дроп пакетов почему идет?

В произвольные моменты, или когда «ресет адаптер» происходит ? Если в произвольные, пока не знаю.

AS ★★★★★ ()
Ответ на: комментарий от AS

Произвольно дропает

enp4s0f1  Link encap:Ethernet  HWaddr 00:15:17:81:ba:91
          inet addr:10.0.0.1  Bcast:10.0.0.255  Mask:255.255.255.0
          inet6 addr: fe80::215:17ff:fe81:ba91/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:262382 errors:0 dropped:5720 overruns:0 frame:0
          TX packets:481120 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:40922419 (40.9 MB)  TX bytes:622661501 (622.6 MB)
          Interrupt:19 Память:b8800000-b8820000

Cherbet ()

e1000e 0000:04:00.1 enp4s0f1: Reset adapter unexpectedly

Ещё вот что вспомнилось. Active-State Power Management в каких-то случаях мешал, и помогало pcie_aspm=off в параметрах ядра. Но это во времена 2.6 было. И, вероятно, отключение tso и тогда бы помогло.

AS ★★★★★ ()
Ответ на: комментарий от Cherbet

RX packets:262382 errors:0 dropped:5720 overruns:0 frame:0

Так это, может, и не проблема. Или не та проблема. Может и обработать не успели, но, может, и пакет никому не нужен просто. Надо попробовать понять, что это за пакеты. VLAN-ы не используются ? Может быть, что-то с неожиданным тэгом прилетает, как вариант.

AS ★★★★★ ()
Ответ на: комментарий от Cherbet

Статистика Ping для 176.32.39.131: Пакетов: отправлено = 1077, получено = 1074, потеряно = 3 (0% потерь) Приблизительное время приема-передачи в мс: Минимальное = 21мсек, Максимальное = 85 мсек, Среднее = 21 мсек

Так что дроп и такой есть.

Cherbet ()
Ответ на: комментарий от Cherbet

Попробуй tcpdump запустить на интерфейсе. tcpdump переведёт интерфейс в promiscuous mode, что заставит принимать всё подряд. Если дропы пропадут, значит это точно прилетает что-то ненужное (заодно это ненужное можно попробовать и найти в выхлопе tcpdump). Если не пропадут, тогда думать, где затык по обработке пакетов.

AS ★★★★★ ()
Ответ на: комментарий от AS

Вечерком стартану, в общагу трафик пойдет, люди с учебы пойдут.

Cherbet ()
Ответ на: комментарий от Cherbet

Приехал, eth1 как сказали пахал, а вот eth0 не сразу, такое чувство как будто заснула и только при надобности врубилась

Cherbet ()
Ответ на: комментарий от Cherbet

В файле /etc/default/grub измени строку GRUB_CMDLINE_LINUX_DEFAULT=«noapic acpi=off pci=noacpi pnpbios=off», затем выполни команду update-grub

wellcomer ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.