LINUX.ORG.RU
ФорумAdmin

Стала самопроизвольно падать сеть. Требуется помощь коллективного разума.

 ,


0

2

Вчера вечером, после 272 суток беспроблемного аптайма перестал отзываться http://www.aviaport.ru. Пинг идёт, по ssh и через http недоступен. IP-KVM встроенный там старый и глючный, так что я написал хостеру, мол, гляньте, что там. Хостер ответил в духе «при подключении консоли видно окошко логина», типа, с виду как живой. Попросил перезагрузить — римский полководец Нолемоций. Пока шум да дело (уже начал просить их подключить их IP-KVM), сумел подцепиться со своим девайсом.

Вижу, машина висит на BIOS «Error, press F1». Обнаружила, что BMC не отзывается (удалённая консоль). Ну, чёрт с ним, не до жиру, разбираться некогда, перезагружаю. Вроде, всё ок. Стартует, работает. Ладно, мало ли, единичный глюк.

Через несколько часов снова та же фигня, машина пингуется, но никак не доступна. Ок, теперь есть доступ к машине в таком состоянии, лезу ковыряться.

С виду, реально, как живой. В логах и dmesg всё корректно, сеть поднята. Но даже GW не пингуется. (локальный IP пингуется). Рестарт сетевого интерфейсас не помогает. Поднимается нормально, но ничего не работает. Перезагружаю — на старте снова BMC Error. Ок, выключаю в BIOS паузу на ошибке, вырубаю машину, пишу хостеру, чтобы обесточили полностью. Мало ли, BMC завис и от него глюки? Всё же, общий сетевой интерфейс с машиной.

Обесточили, пару минут подержали, включили. Смотрю по состоянию — всё ок, BMC заработал, всё прекрасно. Ну, думаю, буду надеяться, что всё будет ок. Ложусь спать, наконец. Тем более, что ещё прошлой ночью только 4 часа спал :)

Проходит 2.5 часа (уже утро) с работы звонят «сайт снова недоступен». Июать! Лезу через IP-KVM, всё как всегда. С виду всё прекрасно, в логах чистота (не считая ругани postfix на недоступность сети и т.п.), в списке процессов никакого криминала. Перезагружаюсь мягко по reboot — всё прекрасно работает.

Включил сейчас вывод на экран логов syslog, dmesg, top, htop. Как снова заглючит, посмотрю на чём оборвётся. В munin никакого криминала, тоже с виду всё ок: http://home.balancer.ru/munin/aviaport/aviaport/index.html

Добавил в 1-минутный cron рестарт, как только перестанет пинговаться шлюз (надеюсь, ложных срабатываний не будет). Пока ожидается следующий завис, иду спать.

Ядро до зависа было старое, после первого рестарта обновилось до 3.10.7 (обновля 7 сентября, но не перезагружался). Т.е. от версии ядра глюк не зависит.

Gentoo.

Есть мысли, что это за нафиг?

★★★★★

Обнаружила, что BMC не отзывается

круто

AlexVR ★★★★★ ()

сколько лет железу? какое железо?

anonymous ()

А что за сетевуха?

А то у меня была на 2х серверах supermicro с сетевушкой 82574L. Тоже иногда глючило, сеть ложилась, правда на тех серверах был офтопик 2008р2 и в диспетчера задча была просто описнаие, что из-за большого числа ошибок, интерфейс ОС положила. Обновление драйверов и биоса не помогли. Тогда просто в соседний другой интерфейс подключили и забыли.

А что в логах железа?

Я собирал вот этим https://downloadcenter.intel.com/Detail_Desc.aspx?agr=Y&DwnldID=17933&amp... Либо по ssh к ipmi подключиться и получить

->show system1/sp1/logs1/record1396
COMMAND COMPLETED :
show system1/sp1/logs1/record1396

 ufip=/system1/sp1/logs1/record1396
  Properties:
      LogCreationClassName=CIM_LogRecord
      LogName=IPMI SEL
      CreationClassName=CIM_LogRecord
      RecordID=1396
      MessageTimeStamp=22:33:18,February 04,2014
      RecordData= - Asserted
      identity=SEL ENTRY


  Verbs:
      cd
      exit
      help
      show
      version

Deleted ()
Ответ на: комментарий от Deleted

А что за сетевуха?

Ethernet controller: Broadcom Corporation NetXtreme BCM5715 Gigabit Ethernet (rev a3)

и в диспетчера задча была просто описнаие, что из-за большого числа ошибок, интерфейс ОС положила

У меня, в том-то и дело, что в логах ничего по железу вообще нет. Поэтому непонятно, в какую сторону копать.

KRoN73 ★★★★★ ()

Простыня текста подтверждает мнение о том, что ты недоумок.

anonymous ()
Ответ на: комментарий от KRoN73

посмотреть сниффером трафик, типа tcpdump, лучше wireshark на предмет конфликтов и помнить про парадокс Хенлона, хотя от девайсов можно ждать все что угодно...

Очень может быть конфликт IP-адресов, проблемы резольвинга. Постепенно отключать все подряд, локализовать проблему...

swwwfactory ★★ ()

Подампить сниффером, что происходит непосредственно до падения сети и во время оного.

Потом думать дальше.

zgen ★★★★★ ()
Ответ на: комментарий от KRoN73

Сообщение BMC Error должно было навести тебя на мысли, этого тупо не должно быть и все.

А то, что оно после ребута оживает ни о чем не говорит - ядро переинициализиует чипы, вливает фирмваре (в тот же броадком) заново и делает еще стопицот вещей. Так что проблема явно железная.

blind_oracle ★★★★★ ()
Ответ на: комментарий от blind_oracle

Сообщение BMC Error должно было навести тебя на мысли, этого тупо не должно быть и все.

Много лет назад (лет 6 тому назад?) такое уже было. Вылечилось тоже полным обесточиванием. После чего годы работало. Так что проблема вряд ли в этом.

А то, что оно после ребута оживает ни о чем не говорит - ядро переинициализиует чипы, вливает фирмваре

Разве про удалении/загрузке модуля сетевухи не те же самые процессы идут, что при загрузке?

KRoN73 ★★★★★ ()

При выгрузке/загрузке драйвера не происходит reset pci-устройства.

IP-KVM или ipmi-sol очень полезная вещь :)

А down & up интерфейса не помогает ?

rmmod bnx2 и modprobe bnx2 не помогает ?

ethtool что на нем показывает после смерти ?

tcpdump на таком мертвом интерфейсе что-нибудь показывает ?

Вместе с проблемами с BMC - я бы задумался о замене БП для начала...

vel ★★★★★ ()
Последнее исправление: vel (всего исправлений: 1)
Ответ на: комментарий от vel

IP-KVM или ipmi-sol очень полезная вещь :)

При чём, что характерно, при зависе IP-KVM, висящий на том же физическом ethernet-порту, работает отлично.

А down & up интерфейса не помогает ?

Пока, со времени открытия топика, всё работает нормально.

Вместе с проблемами с BMC - я бы задумался о замене БП для начала...

Маловероятно, что дело в БП. Ибо всё, кроме сети работает при глюке отлично. И падения были при малой нагрузке машины, ночью. Днём, под высокой нагрузкой работало нормально.

KRoN73 ★★★★★ ()
Ответ на: комментарий от KRoN73

А напряжения не смотрел ? Может какое напряжение на пределе.

Помирающий БП может странно реагировать на провалы/всплески питания. А дальше каждый элемент по-своему реагирует на это.

Если машинке больше 5-6 лет и БП стандартный, то есть смысл поменять.

У меня из 4-х ibm x226 (со сдвоенными БП) на двух напряжение ушло (+5V задиралось). Глюки были сначала редкие и странные, а потом незапуск матери.

vel ★★★★★ ()
Ответ на: комментарий от vel

А напряжения не смотрел ?

Сразу не догадался. Сейчас посмотрел — в норме всё. 12В, 5В и 1.8В, 1.25В вообще почти эталонные, 3.3В реально 3.20В. Но это тоже в пределах нормы («Lower non-critical threshold is readable: 2.960, Lower critical threshold is readable: 2.800»).

и БП стандартный

Вот с этим фигово, боюсь. Надо найти спецификацию на железку.

KRoN73 ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.