LINUX.ORG.RU

Fedora 35 - пропадание сети

 , ,


0

2

Всем привет! У меня есть несколько серверов с такой конфигурацией: AMD Ryzen 3950x ASRock x570 (steel legend) Adata NVMe 1tb Nvidia 730 SAS PCI LSI 9207e Fedora 35 (server, BTRFS, XFCE)

Раз в неделю, не периодично, отваливается сеть. Не помогает ничего, кроме ребута. Т.к. сервера используются под удаленный доступ по SSH, то это очень большая проблема. В момент отвала сети не происходит ничего больше, все досчитывается (локально). Лампочки на адаптере обе горят, как будто сервер работает нормально, однако линка нет. Адреса - статика, но присваиваются через DHCP.

journalctl содержит огромное количество вот таких строк:

Dec 15 07:54:39 zenome-node-2 systemd[1]: Starting Network Manager Script Dispatcher Service…

Dec 15 07:54:39 zenome-node-2 systemd[1]: Started Network Manager Script Dispatcher Service.

Dec 15 07:54:39 zenome-node-2 audit[1]: SERVICE_START pid=1 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:init_t:s0 msg=‘unit=NetworkManager-dispatcher comm=«systemd» exe=«/usr/lib/systemd/systemd» hostname=? addr=? terminal=? res=success’

Dec 15 07:54:49 zenome-node-2 systemd[1]: NetworkManager-dispatcher.service: Deactivated successfully.

Dec 15 07:54:49 zenome-node-2 audit[1]: SERVICE_STOP pid=1 uid=0 auid=4294967295 ses=4294967295 subj=system_u:system_r:init_t:s0 msg=‘unit=NetworkManager-dispatcher comm=«systemd» exe=«/usr/lib/systemd/systemd» hostname=? addr=? terminal=? res=success’

Dec 15 07:59:39 zenome-node-2 NetworkManager[1307]: [1639544379.6184] dhcp4 (enp9s0): state changed extended -> extended, address=10.2.0.22

Поставил atop - ничего (нормальная загрузка - пара дней работы без ошибок - опять вдруг нормальная загрузка). Грешил на железо (неисправность) - но это проявляется на всех 5 машинах с разной периодичностью, но с абсолютно одинаковыми симптомами.

Кроме того, у меня есть Intel машины (B560 + i5 10500F) на такой же ОС - вообще никаких проблем.

Подскажите, пожалуйста, куда тут можно копать? Как я понимаю, наблюдается какой-то конфликт между ОС и железом именно в АМД конфигурации.

Большущее спасибо!

Ответ на: комментарий от d00fy
  1. я попробовал - получается то, что вы видите
  2. эти сообщения повторяются на всех таких узлах с момента запуска. Я скопировал повторяющуюся часть. Период - 10 минут. Других ошибок в journalctl нет.
maveriksvao ()

«Не помогает ничего, кроме ребута»
попробуй передёргивать модуль после отвала сети
sudo modprobe -vr <eth_mod_name>
ждёшь пару секунд
sudo modprobe -v <eth_mod_name>

твой вывод journalctl не информативен, смотри dmesg в момент отвала сети, может быть модуль что-то пишет в этот момент туда

d00fy ()
Ответ на: комментарий от d00fy

dmesg смотрел, пустой. Ядро обязательно подергаю, только вот попаду я туда только через два дня. Спасибо. Сегодня у меня аж два узла отвалилось так.

maveriksvao ()
Ответ на: комментарий от d00fy

Посмотрел dmesg, ничего нет совсем. Modprobe не помогает. Куда дальше копать ещё?

maveriksvao ()

Ну, для начала я бы отключил любые виды энергосбережений для сетевых карт в биосе и в настройках системы (если они там есть конечно) (Green LAN и т.д.). Сетевые устройства это не то место, где имеет хоть какой-то смысл экономия электроэнергии.

Потом поставить другую физическую карту с сетевым контроллером отличным от мамкиного (чтобы отбросить косяк именно в драйверах).

justAmoment ★★★★★ ()
Ответ на: комментарий от justAmoment

Расскажу кулстори. На тему необъяснимых подземных стуков. Был у меня провайдер ТТК и к нему линк был 100Мбит из 4 проводочков. Всё как они любят. На сервере, куда этот линк воткнут сетевая карта на 1Гбит с автосогласованием. И всё работало норм какое-то время. А через несколько месяцев линк на ТТК стал то работать, то не работать. Так как у меня на сервере был мультиван на 6 провайдеров, то на клиентов этого сервера отвал линка ТТК не отражался никак. Звонил несколько раз в поддержку с вопросом «Чё за хрень у вас там происходит, почему линк отваливается.» Они отвечают, никаких настроек не меняли, оборудование не меняли и вообще с их стороны всё зашибись. По факту оказалось, что именно с их линком перестало нормально работать автосогласование скорости. То свалится в 10полудуплекс и еле пропихивает байты со скорость 15-20 кбайт в секунду, то свалится в 100полудуплекс и становиться ещё медленнее, то соединится на 100полныйдуплекс и вообще ни одного байта в линк пропихнуть не может, хотя огоньки на карте горят, да.

В результате взял с полки шкафа с разным барахлом очень старый и очень тупой свитч на 100мбит на 4 порта в железном корпусе. В один порт воткнул линк то ТТК, во второй линк от сервера. И о чудо линк от сервера на 100полныйдуплекс тут же поднят без вопросов. И в таком конфиге отработало несколько лет.

justAmoment ★★★★★ ()
Ответ на: комментарий от justAmoment

так, я психанул и сделал 3 действия:

  1. переустановил ОС на Fedora 36
  2. отключил DHCP
  3. отключил NetworkManager-dispatcher

Пока я думаю, что дело было в конфликте софта и железа. Пока двое суток, проблем нет.

maveriksvao ()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.