LINUX.ORG.RU
ФорумAdmin

Dell iDRAC, лыжи не едут или…

 , , ,


1

3

Ахтунг, дисклаймер: это нытик тред, я просто изливаю накопившуюся боль от одной приблуды.

Арендовал деловский сервер на online.net. Сервер оснащён iDRAC, это такой IPMI с джавааплетами и вебмордой. И вот с этим iDRAC-ом у меня постоянные забеги по граблям. Проблема в том что он имеет свойство отваливаться при неосторожных манипуляциях с сетевым интерфейсом (как я понял он работает через тот-же интерфейс который использует система, не вполне понимаю как реализуется такое совместное использование). Возможно какие-то другие действия тоже могут завесить его. Я ловил зависания после перезагрузки сервера из ОС и во время установки ОС через вебморду хостера, но эти сценарии у меня не получилось протестировать так-же хорошо как проблемы связанные с сетевым интерфейсом.
Если iDRAC завис то единственное что можно сделать это попросить ТП ребутнуть его, ребут сервера из ОС (если она остаётся жива и доступна) не помогает. В общем в большинстве случаев требующих вмешательства IP KVM этот самый IP KVM (от реализован через IPMI) дохнет вместе с тем что он должен был реанимировать.
В результате у меня с сапортом километровая переписка в духе «Сломалось. Презагрузили, работает. Опять сломалось. Перезагрузили, пожалуйста проверьте ваши сетевые настройки. Проверил, а оно опять сломалось».
Конечно солидную часть зависонов можно списать на мою косолапость, но не все. Например только-что, после очередной перезагрузки и обдефолчивания сетевых настроек, сервер благополучно запустился и iDRAC перестал отвечать. Сервер работает, доступен по SSH, а вот через админку провайдера сделать с ним что-либо нельзя. Сапорт пишет что

That's most likely an issue from IDRAC but unfortunately as we are not the manufacturer it's not possible to update it on our side.

И позже

Unfortunately that is not something we can fix on our side, it requires an update on the IDRAC that needs to be done from its manufacturer.
In that case it will indeed require to create a ticket to ask for an electrical reboot.

Что делать? Вдоль? Бочку? Троллейбус из буханки? Сжечь буддийского монаха перед офисом Dell?
Последним моим действием которое всё сломало было service networking restart с предварительным добавлением пустого (без подключенных интерфейсов) бриджа для lxc в конфиг. Вроде не особо экстремально, но поди ж ты.

P.S. при этом другой сервер у того-же провайдера (кажется от Supermicro, какой-то блейд кажется) работает прекрасно и мозги не сношает (ну только тормозит непомерно, но это естественное следствие смехотворной цены). А с этим делом банальная остановка ОС растянулась в квест на несколько дней. В результате я решил просто забить на попытки сразу поставить debian testing из iso, поставил stable через вебморду хостера и уже потом обновил его до testing (отдельный квест — правильно (или хотя-бы не слишком неправильно) разметить диски через ту вебморду и при этом не закрашить iDRAC (при установке с некоторыми вариантами разметки он крашится)).

★★★★★

хм. У меня на r710 есть отдельный езернет-порт для iDRAC и с ним нет проблем, кроме ff-жаба-плагиновских.

А прошивка на этом iDRAC не протухшая?

Помню, что с IPMI без выделенного порта были постоянные заморочки, но это было ооочень давно и не с dell.

vel ★★★★★ ()

Ну все стандартно. Узнать модель сервера, версию прошивки iDRAC. Походить по сайту DELL - может, это известный баг, который исправлен в новой версии прошивки. Если у тебя полный доступ в iDRAC (а не только консоль и VirtualMedia), то прошивку ты можешь обновить сам.

А может есть workaround - например, у драйвера твоей сетевой карты надо выключить какой-нибудь TCP Checksum Offload (просто как пример).

Есть тулзы для iDRAC, которые ставятся внутрь ОС и позволяют ребутнуть iDRAC, если ОС жива и доступна (racadm racreset).

bigbit ★★★★★ ()
Последнее исправление: bigbit (всего исправлений: 1)
Ответ на: комментарий от vel

У сервера две сетевухи, но для idrac используется та-же что для интернетов, вторая простаивает.
idrac 6.что-то-там. Сейчас он весит, так-что точно посмотреть не могу.

MrClon ★★★★★ ()
Ответ на: комментарий от bigbit

Доступ к iDRAC не полный вроде, по началу даже VirtualMedia смонтировать не давали. И при каждой активации iDRAC выдают передупреждение что мол любой пук в сторону лишает вас гарантии, благословения католической церкви и анальной девственности. А учитывая как всё плохо, мне-бы не хотелось ссориться с ТП.

Утилиту надо посмотреть, если будет работать то можно её хоть по крону дёргать. Странно что в ТП о ней не сказали.

MrClon ★★★★★ ()
Ответ на: комментарий от bigbit

Чёт не могу найти эту утилиту на деловском сайте. Только виндовая версия.
Модель сервера Dell PowerEdge R210

MrClon ★★★★★ ()
Ответ на: комментарий от MrClon

Прошивку iDRAC, скорее всего, можно обновить прямо из ОС.

bigbit ★★★★★ ()

Проблема в том что он имеет свойство отваливаться при неосторожных манипуляциях с сетевым интерфейсом (как я понял он работает через тот-же интерфейс который использует система, не вполне понимаю как реализуется такое совместное использование)

ИМХО. Тут может быть как баг в прошивке ipmi, так и раздолбайство провайдера

Смотри, в нормальной ситуации ipmi и ОСь имеют разные интерфейсы, с собственными сетевыми настройками. И, в приличных сетях - в разных vlan'ах. Т.е. доступ к impi разрешён только из сети админов

У тебя это один физический интерфейс. Адреса в одной подсети/vlan'е или в разных? Если в разных, то единственный приличный вариант, ИМХО, выдать на этот порт транк с двумя vlan'ами. Либо ось и ipmi должны сами проставлять тег vlan'а, либо один из них проставляет тег, а трафик другого идёт без тега и его тегирует уже сетевое оборудование

А из твоего рассказа непонятно, какие вообще сети у тебя есть и настраивается ли где-то ( ось, ipmi ) тег vlan'а. Может у тебя рукожопы провайдера зафигачили в одну сеть и ось, и ipmi. И свичу сносит крышу при разных манипуляциях на стороне ОСи

Хотя больше похоже, что тут действительно баг прошивки ipmi и он почему-то не обрабатывает передёргивание линка на общем порту со стороны ОСи.

В любом случае, это не твоя проблема - требуй чтобы провайдер исправил, или ищи вменяемого, а этих рукозадов лесом.

И как уже сказали, у серьёзных производителей серверного железа есть утилиты для работы с ipmi со стороны ОСи

router ★★★★★ ()
Последнее исправление: router (всего исправлений: 1)
Ответ на: комментарий от bigbit

Этот сайт не гуглился. Уже нашёл на стороннем сайте прямую ссылку на архив с деловского сайта (интересно, у всех производителей железа сайты сделаны неимоверно отвратительно, или только у именитых?).
В архиве шелскрипт и куча RPM-ок (Dell для этого сервера заявляет поддержку только Шапки и Суси). А у меня Debian. нашёл в потрахах этих этих пакетов вроде-бы нужные утилиты (хотя их имена немного отличаются от заявленных в инструкции приложенной к архиву):
/opt/dell/srvadmin/bin/idracadm
/opt/dell/srvadmin/bin/idracadm7
/opt/dell/srvadmin/sbin/racadm-wrapper-idrac7
/opt/dell/srvadmin/sbin/racadm-wrapper-idrac

~# /opt/dell/srvadmin/bin/idracadm7 racreset soft


IMPORTANT NOTE!
The RAC is unable to communicate with the BMC. This condition may
occur because of (1) no BMC is present, (2) missing or disfunctional
IPMI-related software components. Many RAC features depend on BMC
connectivity in order to work properly, and you may see failures
as a result.
ERROR: RACADM is unable to process the requested subcommand because there is no
local RAC configuration to communicate with.

Local RACADM subcommand execution requires the following:

 1. A Remote Access Controller (RAC) must be present on the managed server
 2. Appropriate managed node software must be installed and running on the
    server

MrClon ★★★★★ ()
Ответ на: комментарий от router

В системе два интерфейса, один из них видимо вообще никак не используется, на втором запускается DHCP клиент. Всё. Никаких vlanов. Это настройки которые выставляет их установщик ОСи.

В норме idrac клиенту не доступен, что-бы до него добраться нужно жмакнуть кнопочку в вебморде провадера, тогда дают ссылку (https://какой-то-ip-отличный-от-адреса-сервера) логин и пароль. Ну а там вебморда idrac-а.

Тракторнуть к другому провайдеру в ближайшее время — не вариант. ТП уже дала понять что обновлять idrac они не будут (в честь чего это может делать только производитель железа — непонятно).

MrClon ★★★★★ ()

Думаю можно просто дёргать ТП при каждом зависании (они сами предлагали, хули) и за одно намекать что может стоит обновить прошивку. авось проникнутся после сотого тикета.

MrClon ★★★★★ ()
Ответ на: комментарий от MrClon

Наверняка ему еще какой-то пакет нужен. Раз их много и ты сам выковыривал нужные файлы, удивляться нечему. Я этот iDRAC видел всего пару раз, поэтому точнее подсказать не могу. Можно strace'ом посмотреть, куда он лезет и чего хочет.

bigbit ★★★★★ ()

Заменить в вашем случае iDRAC на IMM, а Dell на IBM — суть от этого не поменяется :)

По опыту работы с IBM — лучше сразу обновить все firmware до последних версий плюс внимательно читать доки по этим хреням, зачастую в них прямым текстом указано, что это не баг а фича.

trancefer ★★ ()
Ответ на: комментарий от trancefer

Жизнь — боль. С виртуалочками геморроя сильно меньше.

MrClon ★★★★★ ()

Мы продолжаем нытик-тред.
Решил написать скрипт который-бы поднимал на сервере сеть когда она падает, что-бы в случае проблем с сетью можно было восстановить доступ к серверу не обращаясь в сапорт. В общем-то очевидное решение, но я до того привык что упавший сервер можно легко поднять инструментами хостера что мозг обходил этот вариант стороной даже когда он приходил на ум.
Написал, протестировал, чуда не случилось. Забыл об одном из возможных сценариев и накосячил в том сценарии который должен был перекрыть косяки всех прочих сценариев (дефолт сетевого конфига и ребут, вот только срабатывает у меня эта ветка в случае если сеть поднялась, ну забыл «!» перед условием поставить :). Ну не умею я сразу писать без ошибок, избалован возможностью дёшево гонять цикл «запустить, проверить, исправить».
Пишу в сапорт, прошу загрузить сервер системой для восстановления, в очередной раз. Мне отвечают:

It is the last time that we ask for an electric reboot to this server, the thing you doing make the IPMI down.

Вот и что теперь делать? Править скрипт в надежде что я нашёл все косяки и отвалов сети можно не бояться? Использовать последнюю возможность нормально работать с сервером что-бы попытаться устранить неведомую потенциально существующую проблему на моей стороне? Класть болт на последнее китайское предупреждение, в надежде что мои 40 баксов в месяц им пороже времени сапорта? Тракторить к другому провайдеру?

Последний вариант кажется наиболее вменяемым, но очень не хочется выбрасывать уже потраченные 100 евро (60 setup fee + 40 за первый месяц). С деньгами у меня всё грустно, а в том проекте за чей счёт арендуется этот сервер всё ещё грустнее, так-что 100 евро это сумма. Да и не очень понятно куда тракторить.

MrClon ★★★★★ ()

Была такая же проблема, причем она встречается как на серверах Dell так и HP (iLO) у онлайна. Решил переездом, правда очень далеко, на более старое, но вполне мощное железо и без глюков idrac(версии 6). Если нужен недорогой сервер где-то там же, то смотри в сторону digicube.fr вроде у них сервера также с ip-kvm.

anonymous ()
Ответ на: комментарий от MrClon

Напиши им прямым текстом, что ты задолбался просить перезагрузить сервер, и это последний раз, когда ты согласен терпеть _неработающий_ ipmi, после чего собираешься уйти к другому хостеру

router ★★★★★ ()
Ответ на: комментарий от anonymous

У них сайт на английском есть?
Вообще Франция как таковая мне не особо упёрлась. Нужен сервер с двумя хардами от 2Тб каждый (или одним SSD аналогичного объёма), процом уровня E3 1220, гигабитными интернетами (ну хотя-бы полугигабитными), приличным колличеством РАМы (32 гектара хватит), не в России (как-то ссыкатно) но поблизости. И не дороже онлайновских 40 евро в месяц.

MrClon ★★★★★ ()

Из оси для восстановления постаил на свободное место (хорошо что оставил резерв) debian stable, загрузил его, брат iDRAC и жив.
Сетевой конфиг ОСей почти идентичен (копипаст). Разница только в том что в testing настроен lxc-net, приблуда которая создаёт бридж к которому цепляются интерфейсы виртуалок. Но физические интерфейсы оно не трогает (во всяком случае не должно трогать).
/mnt/etc/default/lxc-net: http://paste.ubuntu.com/23634038/

MrClon ★★★★★ ()
Ответ на: комментарий от MrClon

Кстати это кажется первый случай в моей жизни когда я поставил систему debootstrap-ом с первой попытки, всегда либо ssh забуду поставить, либо пользователя создать, либо fstab отредактировать.

MrClon ★★★★★ ()

Поставил пакет srvadmin-all из деловского репозитория. При независшем idrac выполнил racadm racreset soft:

root@debian-stable:~# racadm racreset soft
ERROR: Unable to perform requested operation

idrac при этом на какое-то время перестал отвечать провайдерской вебморде, но потом снова заработал.
При этом racadm getsysinfo выдаёт какую-то инфу о системе, т.е. в принципе утилита работает.

Правильно я понимаю что idrac тут настроен так что-бы его нельзя было ребутать из системы?
В гуглах советуют ставить ipmitool

MrClon ★★★★★ ()
Ответ на: комментарий от MrClon

Добавил в сетевой конфиг debian stable (которая не вешает idrac) бридж для lxc (lxc-net в stable вроде нет), ребутнулся и ага.

В общем вот они, волшебные строки убивающие iDRAC:

auto lxcbr0
iface lxcbr0 inet static
        bridge_fd 0
        bridge_maxwait 0
        address 192.168.10.1
        netmask 255.255.255.0

MrClon ★★★★★ ()
Ответ на: комментарий от MrClon

Описал баг сапорту onlinet.net, они ответили что мол да, есть такой, знаем, исправить не можем, пробовали уже. Всё что можем посоветовать это взять другую модель сервера.
В общем эти нехорошие люди кинули меня на сто евро денег и месяц времени предоставив вместо сервера какую-то заведомо бракованную хрень.

MrClon ★★★★★ ()
Ответ на: комментарий от MrClon

Странные дела. если бридж создавать не через упомянутые выше конфиги, а ручками (brctl addbr lxcbr0) то ничего не падает и брат жив. Проверил в debian stable (поставленном для тестирования), в debian testing (поставленном для продекшена, да я извращенец) ещё не проверял.

MrClon ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.