LINUX.ORG.RU
ФорумAdmin

linux сервер htb nat потери


0

1

Помогите понять почему
Время от времени появляется такая ситуация на 5 - 10 минут вечером в это же время многие жалуются на потери пакетов

Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 728.537ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 368.519ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 368.519ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 188.510ms
.....................................
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 32.502ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 852.544ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 852.544ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 664.534ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 0.500ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 0.500ms
Unicast reply from 10.0.40.115 [00:1E:E5:59:8C:45] 0.500ms

А дальше все отлично по 0.500ms
И так на любой хост на устройстве eth0 (побит на вланы)
В топе в этот момент ничего не меняется по iptraf тоже нет никаких всплесков

top - 00:35:29 up 1 day, 1:24, 1 user, load average: 0.24, 0.15, 0.10
Tasks: 89 total, 2 running, 87 sleeping, 0 stopped, 0 zombie
Cpu0 : 0.6%us, 0.2%sy, 0.0%ni, 92.7%id, 0.8%wa, 0.9%hi, 4.8%si, 0.0%st
Cpu1 : 0.6%us, 0.3%sy, 0.0%ni, 83.2%id, 0.0%wa, 3.3%hi, 12.7%si, 0.0%st
Mem: 1539588k total, 900136k used, 639452k free, 209568k buffers
Swap: 1052216k total, 0k used, 1052216k free, 221012k cached

Шейпер
Основные 2 класса
tc qdisc add dev eth0 root handle 1: htb default 1000
tc class add dev eth0 parent 1: classid 1:1 htb rate 18300kbit quantum 18000 # burst 20k
tc class add dev eth0 parent 1: classid 1:2 htb rate 70000kbit quantum 18000 # burst 20k
tc class add dev eth0 parent 1:1 classid 1:1000 htb rate 16kbit quantum 1500 # DEFAULT CLASS
Абонентские
tc class add dev eth0 parent 1:2 classid 1:4216 htb rate 16kbit ceil 4096kbit quantum 3000 # burst 12
tc filter add dev eth0 protocol 802.1q parent 1: prio 2 u32 match ip dst 10.0.40.216 at 20 flowid 1:4216
tc filter add dev vlan740 parent ffff: protocol ip u32 match ip src 10.0.40.216 police rate 1024kbit burst 128k drop flowid :4216
И так на каждого всего 400


На сетевой работают разные вланы абсолютно одинаковая проблемма на всех вланах
Сначала подумал на сетевую, поменял - не помогло
Порт свича и патч корд - не помогло
Сам свитч (пользуясь случаем) - - не помогло
! Заметил очень интересную особенность когда переписал vlan с другой сетевой на эту сетевую с ним началась таже история !


dmesg что показывает ? ошибки на портах есть как со стороны свича так и роутера ? tcpdum-ом трафик смотрели на предмет флуда ?

anonymous ()

что в

sysctl net.netfilter.nf_conntrack_max
sysctl net.netfilter.nf_conntrack_count
sysctl net.netfilter.nf_conntrack_buckets
ethtool -S eth0

смущает «И так на каждого всего 400»

Когда 400 уже пора хештаблицы использовать. Попробуйте отключить шейпинг во время проблем.

ventilator ★★★ ()
Ответ на: комментарий от ventilator

ifconfig | grep error - все по нулям(на одном 4 ошибки)
net.netfilter.nf_conntrack_max = 65536
net.netfilter.nf_conntrack_count = 18815
net.netfilter.nf_conntrack_buckets = 8192
NIC statistics:
tx_bytes: 464850820167
rx_bytes: 92392054161
tx_broadcast: 92452
rx_broadcast: 294390
tx_multicast: 0
rx_multicast: 0
tx_unicast: 432128868
rx_unicast: 348604307
tx_mac_pause: 0
rx_mac_pause: 56422
collisions: 0
multi_collisions: 0
aborted: 0
late_collision: 1
fifo_underrun: 0
fifo_overflow: 8
rx_toolong: 0
rx_jabber: 0
rx_runt: 0
rx_too_long: 0
rx_fcs_error: 0
Сегодня включил flow control на порту свича

В dmesg только ошибки вида
UDP: bad checksum. From 119.92.61.116:6881 to 91.xx.56.2:48926 ulen 109
UDP: bad checksum. From 188.162.7.125:18353 to 91.xx.56.2:1374 ulen 107
Но это на другом интерфейсе

Попробуйте отключить шейпинг во время проблем
1 раз отключал помогло еще раз проверю, возможно совпадение
400 классов это правда многовато ?

isup ()
Ответ на: комментарий от anonymous

Спасибо permission denied on key 'net.netfilter.nf_conntrack_buckets' Буду разбираться как netfilter на arping должен влиять ? softirq загружен до 25% уже пора хештаблицы использовать?

isup ()
Ответ на: комментарий от isup
#cat /etc/modules 
nf_conntrack hashsize=1048576
loop
8021q
ifb 

это к вопросу про permission denied on key

Хештаблицы в самом деле уже давно пора использовать.

ventilator ★★★ ()
Ответ на: комментарий от isup

Если при отключении шейпинга легчает, то дело именно в линейных фильтрах. Можете конечно tool/perf top глянуть в исходниках ядра, если оно достаточно свежее.

ventilator ★★★ ()
Ответ на: комментарий от isup

Помоему сам разобрался htb default class был 8k увеличил до 64k. Он наверно забивался и хождение arp who-has и arp-rely было затруднено. Вопрос №2 можно ли увидеть кто или что забивает default class?

isup ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.