Сервер грохнулся

0

1

Сервер завис. Не отвечал никак и ни на что. После перезагрузки очухался. В логах ничего. Просто глухо с момента X.

После истечения некоторого времени снова был затык, один процесс завис наглухо

В логах

journalctl -k -S -50m

r8169 0000:01:00.0 eth0: NETDEV WATCHDOG: CPU: 0: transmit queue 0 timed out 5128 ms
r8169 0000:01:00.0 eth0: rtl_txcfg_empty_cond == 0 (loop: 42, delay: 100)
r8169 0000:01:00.0: can't disable ASPM; OS doesn't have ASPM control
r8169 0000:01:00.0 eth0: rtl_rxtx_empty_cond == 0 (loop: 42, delay: 100).

И ещё в момент делал strace процесса

strace -p pid
epoll_wait(3, [], 4096, 173)            = 0
epoll_wait(3, [], 4096, 1)              = 0
epoll_wait(3, [], 4096, 1000)           = 0
epoll_wait(3, [], 4096, 1000)           = 0
epoll_wait(3, [], 4096, 1000)           = 0
///
Больше ничего от него не было

Какие диагнозы?

Ссылка

← Proxmox n100 пробовал кто?

FreeIPA и /tmp →

Хорошо бы в терминал ему посмотреть перед ребутом, может там ядро крэшнулось. Для этого ip kvm нужен. Помимо логов хорошо бы мониторингом обзавестись чтобы было где посмотреть потел ли больной перед кончиной и в каких местах. А то может он банально перегрелся

cobold ★★★★★
(11.09.25 17:23:04 MSK)
Последнее исправление: cobold 11.09.25 17:23:40 MSK (всего исправлений: 1)

Ответ на: комментарий от cobold 11.09.25 17:23:04 MSK

Да это понятно... но KVM нет там. Тоже хотел к консоли подрубиться, но нет.

gobot ★★★★
(11.09.25 17:26:47 MSK) автор топика

У сервера не может быть RTL8169 в списке загруженных модулей. У тебя какой-то некачественный сервер, наверное, китайский. Потребуй заменить на другой.
А еще можно настроить вывод лога ядра в com-порт, иногда так можно получить больше информации.

Khnazile ★★★★★
(11.09.25 17:26:55 MSK)

Ответ на: комментарий от cobold 11.09.25 17:23:04 MSK

Ну мониторинг есть, zabbix. Но там глухо сразу в момент кончины стало

gobot ★★★★
(11.09.25 17:27:54 MSK) автор топика

Ссылка

r8169 0000:01:00.0 eth0: NETDEV WATCHDOG: CPU: 0: transmit queue 0 timed out 5128 ms

Это одна строка?

Обычно строжевая собака, вырубает все или перезапускает, но я не эксперт.

fucpsy
(11.09.25 17:28:56 MSK)
Последнее исправление: fucpsy 11.09.25 17:31:41 MSK (всего исправлений: 1)

Ответ на: комментарий от Khnazile 11.09.25 17:26:55 MSK

У сервера не может быть RTL8169 в списке загруженных модулей

Почему?

А еще можно настроить вывод лога ядра в com-порт

А ещё можно постелить коврик и спать около сервера ) Не, ну это как-то сложно-нереально. Сервер то я арендую, ясен пень

gobot ★★★★
(11.09.25 17:31:25 MSK) автор топика

Ответ на: комментарий от fucpsy 11.09.25 17:28:56 MSK

да

gobot ★★★★
(11.09.25 17:31:54 MSK) автор топика

Ссылка

Ответ на: комментарий от gobot 11.09.25 17:31:25 MSK

У сервера не может быть RTL8169 в списке загруженных модулей
Почему?

Вам намекают на то, что это самосбор.

anc ★★★★★
(11.09.25 17:54:27 MSK)

Ответ на: комментарий от anc 11.09.25 17:54:27 MSK

Либо хецнер :)

Dimez ★★★★★
(11.09.25 17:57:14 MSK)

Ответ на: комментарий от gobot 11.09.25 17:31:25 MSK

Почему?

Потому что это десктопная сетевуха.

firkax ★★★★★
(11.09.25 17:58:17 MSK)

Ссылка

Ответ на: комментарий от anc 11.09.25 17:54:27 MSK

В «самосбор» ничего плохого нет, важно из каких комплектующих его собрали.

firkax ★★★★★
(11.09.25 18:01:17 MSK)

Ответ на: комментарий от gobot 11.09.25 17:26:47 MSK

Да это понятно... но KVM нет там.

Ищи хостера у которого есть. Или просто попроси сменить железку т.к. эта походу битая.

firkax ★★★★★
(11.09.25 18:02:08 MSK)

Ответ на: комментарий от firkax 11.09.25 18:02:08 MSK

раньше он везде был, в недружелюбных странах, а теперь почему то нет.

gobot ★★★★
(11.09.25 18:05:24 MSK) автор топика

Ответ на: комментарий от Dimez 11.09.25 17:57:14 MSK

На baremetal?

anc ★★★★★
(11.09.25 18:35:40 MSK)

Ответ на: комментарий от firkax 11.09.25 18:01:17 MSK

Вот про

из каких комплектующих его собрали.

Как раз и тема :)

anc ★★★★★
(11.09.25 18:37:16 MSK)

Ссылка

Ответ на: комментарий от gobot 11.09.25 18:05:24 MSK

раньше он везде был, в недружелюбных странах, а теперь почему то нет.

А как они предлагают начальную установку делать? Только из их образов?

anc ★★★★★
(11.09.25 18:40:11 MSK)

Ответ на: комментарий от gobot 11.09.25 17:31:25 MSK

У кого ты его арендуешь, если там ни kvm ни последовательной консоли? Это какая-то дичь, я понимаю, когда такое строят в чулане, но не сдают в аренду.

Вообще, возможно сервер под ddos, и тупо не вывозит наплыв пакетов. Сервер физический или виртуальный?

Khnazile ★★★★★
(11.09.25 18:41:35 MSK)

Ответ на: комментарий от Khnazile 11.09.25 18:41:35 MSK

Вообще, возможно сервер под ddos, и тупо не вывозит наплыв пакетов.

Эм, нет.

firkax ★★★★★
(11.09.25 18:49:49 MSK)

Ответ на: комментарий от firkax 11.09.25 18:49:49 MSK

Почему нет? Я лично видел, как rtl8269 начинает сыпать ошибками, если гигабитную сетевуху воткнуть в компьютер со слишком слабым процессором.

Khnazile ★★★★★
(11.09.25 18:55:39 MSK)

Ответ на: комментарий от anc 11.09.25 18:35:40 MSK

Да. У них там вполне себе старые серверы на реалтеке.

Dimez ★★★★★
(11.09.25 19:15:20 MSK)

Ответ на: комментарий от Khnazile 11.09.25 18:55:39 MSK

Потому что у него сервер целиком завис/упал (в первый раз) а не только сетевуха.

firkax ★★★★★
(11.09.25 19:33:29 MSK)

Ответ на: комментарий от Dimez 11.09.25 19:15:20 MSK

Какой ужас. Никогда не видел rtl на baremetal.

anc ★★★★★
(11.09.25 19:59:55 MSK)

Ссылка

Ответ на: комментарий от anc 11.09.25 18:40:11 MSK

Панель, как и все. Шаблон

gobot ★★★★
(11.09.25 20:07:27 MSK) автор топика

Ответ на: комментарий от Khnazile 11.09.25 18:41:35 MSK

Физический, ну так то норм трафик держит в целом. Ну нет KVM, и фаера нет и бэкапов бесплатных. Но это ладно, мелочи...

gobot ★★★★
(11.09.25 20:10:03 MSK) автор топика

Ответ на: комментарий от gobot 11.09.25 20:07:27 MSK

Извращенцы.

anc ★★★★★
(11.09.25 20:13:23 MSK)

Ссылка

Ответ на: комментарий от gobot 11.09.25 20:10:03 MSK

и фаера нет

А фаер это что?

anc ★★★★★
(11.09.25 20:14:02 MSK)

Ссылка

Ответ на: комментарий от firkax 11.09.25 19:33:29 MSK

У меня пару лет назад целиком компьютер зависал из-за драйвера bluetooth. Подумаешь, обычная проблема монолитных ядер, один драйвер легко складывает ядро. Еще много лет назад с драйвером reiserfs аналогично было. Ничего не доказывает.

Khnazile ★★★★★
(11.09.25 21:50:54 MSK)

Ссылка

Аттачься по COM порту и дебаж через KGDB. Отпишись о результатах!

water_closed ★
(11.09.25 21:58:24 MSK)

Ссылка

Ответ на: комментарий от gobot 11.09.25 20:10:03 MSK

Ну в таком случае это очень странный хостинг. Видимо, хостят на десктопном железе, причем недорогом.
Все же, организовать удаленную консоль не такая уж сложная задача в наше время, попробуй выйти на контакт с инженерами хостинга.

Khnazile ★★★★★
(11.09.25 21:59:51 MSK)

Ссылка

Ответ на: комментарий от firkax 11.09.25 18:01:17 MSK

ещё более важно для каких целей он используется. может, ему и не надо ничего мощного по сети качать. так что намёки на «недостаточно крутое железо» - это чисто понты, чтобы самоутвердиться, наверное. а «сервером» может быть и ардуинка или малинка, смотря какие задачи он решает.

Iron_Bug ★★★★★
(12.09.25 02:57:07 MSK)

Ссылка

https://wiki.ubuntu.com/Kernel/Netconsole

BOOBLIK ★★★★
(12.09.25 11:54:05 MSK)

Ссылка

OS doesn't have ASPM control

Кто-то уснул вечным сном?

GAMer ★★★★★
(12.09.25 12:40:14 MSK)

Ссылка

https://superuser.com/a/1885537/1024808

It doesn’t necessary mean that the server crashes when it loses network connectivity, but let’s assume the kernel OOPSed or panics.

Are there modifications I can make to the machine that will provide more data next time it happens? Software I can install that will log useful extra data?

The best is to setup kernel log (dmesg) netconsole forwarder, which will mirror all the kernel messages using low-level networking + UDP.

Save all the UDP packets to the file on another machine. If the server crashes, you’ll be able to get kernel oops/panic message from the log.
Both machines should be in the same network (L2 connectivity).

Alternative is to store crash log in UEFI variable with pstore. It’s not as verbose as network log, and not every UEFI has large enough storage, but you don’t need another machine if it works, and it helps if what crash your system is a network driver or something in network stack.

Are there things I should be checking for beyond looking at the system logs and SMART monitoring data from the machine that could give me a clue?

Try checking EDAC (Error Detection and Correction) subsystem information, it may identify some types of hardware issues: ras-mc-ctl --summary.
On desktop motherboard it probably won’t be very useful though.

If you want your server to automatically reboot on hang, setup hardware watchdog. It’s available on every motherboard at least from the last decade. If the kernel crashes, your server would automatically reboot. For older system, you need to configure Intel TCO iTCO_wdt, and for newer ones this module may not work, use ACPI watchdog wdat_wdt, which works exactly the same (uses the same hardware but access via ACPI). From the userspace side, you need watchdog.

ValdikSS ★★★★★
(12.09.25 13:54:35 MSK)

Ссылка

Ответ на: комментарий от anc 11.09.25 17:54:27 MSK

у мне как-то пробегал мимо меня сервак где реалтек стоял на каком-то встроенном одиночном порту. предполагалось, что основной трафик пойдёт по 2-портовым 710 или 810, а это так, сети управления гонять.

mumpster ★★★★★
(15.09.25 14:14:14 MSK)