LINUX.ORG.RU
ФорумAdmin

Link is Down & Link is UP


0

4

Я арендую несколько выделенных серверов. На одном из них периодически падает сеть. Debian RHEL6 + http://wiki.openvz.org/Download/kernel/rhel6/042stab061.2

Oct 10 15:44:18 host-5 kernel: [91522.910264] r8169 0000:03:00.0: eth0: link down
Oct 10 15:44:21 host-5 kernel: [91525.255116] r8169 0000:03:00.0: eth0: link up
Oct 10 15:44:33 host-5 kernel: [91537.773078] r8169 0000:03:00.0: eth0: link down
Oct 10 15:44:53 host-5 kernel: [91557.447399] r8169 0000:03:00.0: eth0: link up
Кроме этого я ничего не нашел. Начал яростно гуглить и кинул реквест в саппорт дата-центра. Мне предложили поставить r8168 драйвер http://wiki.hetzner.de/index.php/Installation_des_r8168-Treibers/en

Успешно поставил драйвер и спокойно лег спать. Но утром обнаружил снова.

Oct 11 10:16:34 host-5 kernel: [34970.152419] r8168: eth0: link down
Oct 11 10:16:35 host-5 kernel: [34970.674281] r8168: eth0: link down
Oct 11 10:16:37 host-5 kernel: [34972.688883] r8168: eth0: link up
Oct 11 10:16:38 host-5 kernel: [34973.674202] r8168: eth0: link up
Oct 11 10:16:49 host-5 kernel: [34985.012568] r8168: eth0: link down
Oct 11 10:16:50 host-5 kernel: [34985.667411] r8168: eth0: link down
Oct 11 10:17:09 host-5 kernel: [35004.792170] r8168: eth0: link up
Oct 11 10:17:10 host-5 kernel: [35005.656979] r8168: eth0: link up

Далее была бесполезная переписка с техподдержкой ДЦ. На сервере перепрошили биос, далее заменили кабель и порт. Но проблема осталась. Делать нечего, я решил, что нужно перебросить клиентов на сервер который нормально работает. Взял более дорогой Xeon E-1245 с Intel Corporation 82574L Gigabit Network Connection. Поставил на него Debian + ядро http://wiki.openvz.org/Download/kernel/rhel6/042stab062.2 Поработал сервер несколько часов и на этом новом сервере снова упала сеть

Oct 15 13:17:11 host-6 kernel: [12139.886613] e1000e: eth0 NIC Link is Down
Oct 15 13:17:19 host-6 kernel: [12147.197303] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx / Tx
Oct 15 13:17:31 host-6 kernel: [12160.024052] e1000e: eth0 NIC Link is Down
Oct 15 13:17:59 host-6 kernel: [12187.437176] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Плюнул, все снес, поставил CentOS и далее через yum с репозитория openvz - последнее ядро ovz. Несколько дней сервер замечательно проработал. И я решил, что пора перетаскивать клиентов с проблемного сервера. Но сегодня ночью обнаружил в логе эти заветные строчки

Oct 24 11:02:24 sun kernel: [595195.420810] e1000e: eth0 NIC Link is Down
Oct 24 11:03:29 sun kernel: [595259.503573] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
Oct 24 11:03:40 sun kernel: [595270.938053] e1000e: eth0 NIC Link is Down
Oct 24 11:04:08 sun kernel: [595298.627905] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Настройки sysctl

# On Hardware Node we generally need
# packet forwarding enabled and proxy arp disabled
net.ipv4.ip_forward = 1
net.ipv6.conf.default.forwarding = 1
net.ipv6.conf.all.forwarding = 1
#net.ipv6.conf.all.proxy_ndp = 0
net.ipv4.conf.default.proxy_arp = 0

# Enables source route verification
net.ipv4.conf.all.rp_filter = 1

# Enables the magic-sysrq key
kernel.sysrq = 1

# We do not want all our interfaces to send redirects
net.ipv4.conf.default.send_redirects = 1
net.ipv4.conf.all.send_redirects = 0

# From CentOS standard configration
net.ipv4.icmp_echo_ignore_broadcasts=1
[root@sun cache]# ethtool -i eth0
driver: e1000e
version: 1.9.5-k
firmware-version: 1.8-0
bus-info: 0000:04:00.0

Так же есть еще два сервера на старом ядре, там таких проблем по логам не вижу. Написал в багтрекер openvz http://bugzilla.openvz.org/show_bug.cgi?id=2394 но пока ответ не получил. Так же в баг трекере есть еще http://bugzilla.openvz.org/show_bug.cgi?id=2382 - падает есть после перезагрузки контейнера vps. У меня же в логах в момент down link нет перезагрузки.

Буду очень рад советам. Никак не получается решить проблему.

А на старом сервере вообще какой-то ад, каждый день 2-3 раза падает.

Oct 24 01:56:37 host-5 kernel: [866533.491971] r8168: eth0: link down
Oct 24 01:56:38 host-5 kernel: [866534.339673] r8168: eth0: link down
Oct 24 01:56:40 host-5 kernel: [866536.054816] r8168: eth0: link up
Oct 24 01:56:40 host-5 kernel: [866536.338921] r8168: eth0: link up
Oct 24 01:56:52 host-5 kernel: [866548.362539] r8168: eth0: link down
Oct 24 01:56:53 host-5 kernel: [866549.330787] r8168: eth0: link down
Oct 24 01:57:12 host-5 kernel: [866568.059443] r8168: eth0: link up
Oct 24 01:57:12 host-5 kernel: [866568.319954] r8168: eth0: link up
Oct 24 06:25:03 host-5 rsyslogd: [origin software="rsyslogd" swVersion="4.6.4" x-pid="1233" x-info="http://www.rsyslog.com"] rsyslogd was HUPed, type 'lightweight'.
Oct 24 18:28:34 host-5 kernel: [926014.652800] r8168: eth0: link down
Oct 24 18:28:34 host-5 kernel: [926015.169786] r8168: eth0: link down
Oct 24 18:28:36 host-5 kernel: [926016.975563] r8168: eth0: link up
Oct 24 18:28:36 host-5 kernel: [926017.169043] r8168: eth0: link up
Oct 24 18:28:49 host-5 kernel: [926029.510269] r8168: eth0: link down
Oct 24 18:28:49 host-5 kernel: [926030.160902] r8168: eth0: link down
Oct 24 18:29:09 host-5 kernel: [926049.334105] r8168: eth0: link up
Oct 24 18:29:09 host-5 kernel: [926050.149478] r8168: eth0: link up



Последнее исправление: poiuty (всего исправлений: 1)

Может попробовать выключить flowcontrol? ДЦ на коммутаторе ничего в логах страшного не видят?

dizaster
()
Ответ на: комментарий от no-dashi

Это жестко как-то. Дополнительно за NIC 30 евро. Да и ведь на сервере с Xeon`ом стоит Intel Corporation 82574L Как раз для этого и брал его - дороже и Intel

Как еще можно определить проблему? Я пересмотрел все логи. В них только Up/Down.

poiuty
() автор топика
Ответ на: комментарий от poiuty

У вас в dmesg (для e1000) сначала «Flow Control: Rx/Tx», только потом «Flow Control: None». Может попробовать его выключить через опции модуля? И с каким сообщением поднимается сеть в первый раз при загрузке системы?

Что такое «Debian RHEL6»?

Так же есть еще два сервера на старом ядре

Эти сервера аналогично с openvz и r8169?

mky ★★★★★
()
Ответ на: комментарий от poiuty

Если хочется больше логов, то, вроде, модуль r8169 позволяет задать параметром уровень debug'а. Но, чтобы понять о чём эти отладочные сообщения, возможно придётся смотреть исходники.

mky ★★★★★
()
Ответ на: комментарий от mky

На сервере с CentOS 6 и последним ядром ovz.

# dmesg | grep eth0
[   10.131167] e1000e 0000:04:00.0: eth0: (PCI Express:2.5GT/s:Width x1) 30:85:a9:a4:1f:44
[   10.131279] e1000e 0000:04:00.0: eth0: Intel(R) PRO/1000 Network Connection
[   10.131423] e1000e 0000:04:00.0: eth0: MAC: 3, PHY: 8, PBA No: FFFFFF-0FF
[   11.660304] ADDRCONF(NETDEV_UP): eth0: link is not ready
[   14.154604] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[   14.156357] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[163871.575158] ADDRCONF(NETDEV_UP): eth0: link is not ready
[163874.270698] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[163874.272438] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[164384.359287] ADDRCONF(NETDEV_UP): eth0: link is not ready
[164387.139416] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[164387.140454] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[164462.622956] ADDRCONF(NETDEV_UP): eth0: link is not ready
[164465.402081] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[164465.403345] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[164618.169814] ADDRCONF(NETDEV_UP): eth0: link is not ready
[164621.004924] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[164621.006647] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[164818.186911] ADDRCONF(NETDEV_UP): eth0: link is not ready
[164821.076002] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[164821.077776] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[164879.348464] ADDRCONF(NETDEV_UP): eth0: link is not ready
[164882.150577] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[164882.152338] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[164904.357833] ADDRCONF(NETDEV_UP): eth0: link is not ready
[164907.242322] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[164907.243715] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[165789.165048] e1000e: eth0 NIC Link is Down
[165795.715167] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
[165808.120054] e1000e: eth0 NIC Link is Down
[165836.020795] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[166346.169420] ADDRCONF(NETDEV_UP): eth0: link is not ready
[166349.011800] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None
[166349.013148] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[595195.420810] e1000e: eth0 NIC Link is Down
[595259.503573] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
[595270.938053] e1000e: eth0 NIC Link is Down
[595298.627905] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Основная ОС Debian. С ядром RHEL 6, ставил http://wiki.openvz.org/Install_kernel_from_RPM_on_Debian_6.0 ( это сервер с r8168, до этого стоял r8169) Ниже лог, тут оно вообще падает жутко дофига.

# dmesg | grep eth0
[    0.909805] eth0: Identified chip type is 'RTL8168F/8111F'.
[   14.388763] r8168: eth0: link down
[   14.602337] ADDRCONF(NETDEV_UP): eth0: link is not ready
[   17.382271] r8168: eth0: link up
[   17.384112] ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
[   17.387488] r8168: eth0: link up
[   27.934780] eth0: no IPv6 routers present
[57086.342709] r8168: eth0: link down
[57086.658056] r8168: eth0: link down
[57088.733713] r8168: eth0: link up
[57089.657467] r8168: eth0: link up
[57101.121582] r8168: eth0: link down
[57101.650928] r8168: eth0: link down
[57120.733356] r8168: eth0: link up
[57121.640500] r8168: eth0: link up
[110331.314510] r8168: eth0: link down
[110332.185169] r8168: eth0: link down
[110333.782427] r8168: eth0: link up
[110334.185414] r8168: eth0: link up
[110346.190308] r8168: eth0: link down
[110347.178275] r8168: eth0: link down
[110365.927002] r8168: eth0: link up
[110366.168695] r8168: eth0: link up
[162878.307263] r8168: eth0: link down
[162879.181191] r8168: eth0: link down
[162880.694479] r8168: eth0: link up
[162881.181229] r8168: eth0: link up
[162893.167342] r8168: eth0: link down
[162893.174920] r8168: eth0: link down
[162913.093061] r8168: eth0: link up
[162913.164261] r8168: eth0: link up
[218701.738382] r8168: eth0: link down
[218702.245449] r8168: eth0: link down
[218704.076241] r8168: eth0: link up
[218704.245938] r8168: eth0: link up
[218716.616814] r8168: eth0: link down
[218717.238553] r8168: eth0: link down
[218736.227135] r8168: eth0: link up
[218736.228930] r8168: eth0: link up
[290058.900867] r8168: eth0: link down
[290059.237478] r8168: eth0: link down
[290061.341273] r8168: eth0: link up
[290062.235899] r8168: eth0: link up
[290073.766196] r8168: eth0: link down
[290074.229592] r8168: eth0: link down
[290093.567259] r8168: eth0: link up
[290094.217922] r8168: eth0: link up
[339937.275788] r8168: eth0: link down
[339937.734309] r8168: eth0: link down
[339939.610870] r8168: eth0: link up
[339939.733583] r8168: eth0: link up
[339952.028456] r8168: eth0: link down
[339952.726652] r8168: eth0: link down
[339971.743447] r8168: eth0: link up
[339972.714996] r8168: eth0: link up
[376402.627370] r8168: eth0: link down
[376403.210545] r8168: eth0: link down
[376405.102073] r8168: eth0: link up
[376405.209781] r8168: eth0: link up
[376417.495325] r8168: eth0: link down
[376418.201895] r8168: eth0: link down
[376437.463470] r8168: eth0: link up
[376438.190225] r8168: eth0: link up
[416188.640359] r8168: eth0: link down
[416188.743734] r8168: eth0: link down
[416191.157679] r8168: eth0: link up
[416191.742400] r8168: eth0: link up
[416203.492596] r8168: eth0: link down
[416203.736093] r8168: eth0: link down
[416223.313786] r8168: eth0: link up
[416223.725662] r8168: eth0: link up
[446345.978365] r8168: eth0: link down
[446346.930825] r8168: eth0: link down
[446348.303204] r8168: eth0: link up
[446348.930117] r8168: eth0: link up
[446360.854170] r8168: eth0: link down
[446360.922569] r8168: eth0: link down
[446380.508202] r8168: eth0: link up
[446380.910908] r8168: eth0: link up
[481056.523052] r8168: eth0: link down
[481057.351615] r8168: eth0: link down
[481058.923680] r8168: eth0: link up
[481059.350864] r8168: eth0: link up
[481071.377903] r8168: eth0: link down
[481072.342727] r8168: eth0: link down
[481091.179034] r8168: eth0: link up
[481091.331912] r8168: eth0: link up
[523668.790024] r8168: eth0: link down
[523669.080034] r8168: eth0: link down
[523671.126695] r8168: eth0: link up
[523672.078702] r8168: eth0: link up
[523683.668453] r8168: eth0: link down
[523684.072140] r8168: eth0: link down
[523703.237501] r8168: eth0: link up
[523704.060712] r8168: eth0: link up
[866533.491971] r8168: eth0: link down
[866534.339673] r8168: eth0: link down
[866536.054816] r8168: eth0: link up
[866536.338921] r8168: eth0: link up
[866548.362539] r8168: eth0: link down
[866549.330787] r8168: eth0: link down
[866568.059443] r8168: eth0: link up
[866568.319954] r8168: eth0: link up
[926014.652800] r8168: eth0: link down
[926015.169786] r8168: eth0: link down
[926016.975563] r8168: eth0: link up
[926017.169043] r8168: eth0: link up
[926029.510269] r8168: eth0: link down
[926030.160902] r8168: eth0: link down
[926049.334105] r8168: eth0: link up
[926050.149478] r8168: eth0: link up
[990353.002990] r8168: eth0: link down
[990353.150421] r8168: eth0: link down
[990355.630085] r8168: eth0: link up
[990356.149076] r8168: eth0: link up
[990367.855220] r8168: eth0: link down
[990368.141529] r8168: eth0: link down
[990387.466524] r8168: eth0: link up
[990388.130129] r8168: eth0: link up

Еще два сервера Debian + ovz RHEL 6, ядро 57.1 http://wiki.openvz.org/Download/kernel/rhel6-testing/042stab057.1 и еще ниже версией. Один работает около 140 дней аптайма, второй меньше, но проблем с сетью в логах не обнаружил. Эти сервера на r8169.

Так же есть еще три сервера без openvz - сеть не падает, на одном из них аптайм скоро будет 200 дней.

poiuty
() автор топика
Ответ на: комментарий от poiuty

Вообщем что буду делать, мне все-таки кажется что это связано с openvz. Освобождаю этот сервер. Стучу в багрепорт, даю им полный доступ, прошу посмотреть. Надеюсь у них будет желание. Если откажутся, ставлю чистый Debian или CentOS, создаю нагрузку на сеть, жду неделю. Если не падает - снова ставлю openvz + пишу репорт, когда упадет - еще раз отправляю отчет.

poiuty
() автор топика
31 июля 2013 г.
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.