LINUX.ORG.RU

ubuntu server зависает при простое намертво

 , ,


0

1

Проблема: Система при простое случайным образом зависает и не реагирует ни на какие действия - не пингуется, по ssh не заходит, при подключении монитора статичная картинка tty, где даже курсор не мигает, на клавиатуре не меняются диоды scroll/caps/num lock, однако post код на матери «AA», вертушки крутятся, внутренности в оптимальных температурах. Бывает 4-6 дней работает, бывает через 12 часов после включения (выборка маленькая, раз 7 зависал и только при простое) Лечится только хардребутом. Зависает после разных использований сервера:

  • Включал и никак не использовал сервер
  • Включал и в течение всего периода активно использовал ресурсы системы
  • Включал и устраивал стресстесты

Система:

  • ubuntu server 22.04.4
  • 2x Xeon E5-2698 V4
  • 8x 32GB samsung DDR ECC 2400 M393A4K40CB1-CRC
  • HUANANZHI X99-F8D PLUS (биос родной)
  • 2x ssd 980 pro 500 gb в программном рейд 1 (/boot, /)
  • 2x ssd 870 evo 2tb в программном рейд 1 (/var)
  • бп на 850 ватт, подключен в ИБП на 1,2 квт
  • свопа нет (при недостатке ресурсов выделил бы файл для свопа)

Проведенные мероприятия: в systemlogs, kern.log ничего полезного нет, только в systemlogs ежечасно cron отписку давал, поэтому можно только примерное время отвала сервера узнать

На системе кроме clickhouse (бд) и питона ничего не установлено. Устраивал стресстесты - через memtest86 минуя убунту, через консоль с помощью stress-ng нагружал процессор всеми 80 потоками (были микро зависания, через ssh команды по 30 секунд выполнялись, но это из-за 100% нагрузки. при меньшем количестве занятых потоков ничего не зависало) и пытался переполнить оперативку (ставил количество памяти 300gb, отсутствие свопа не ломало систему). Также заполнял оперативную память и нагружал процессор через базу данных, а также через python (основными инструментами, с которыми будет работать сервер) - никаких отвалов или ошибок. при всех тестах температуры открытых компонентов не превышали 70 градусов (тепловизором измерял). После стресс тестов все работает исправно.

такой же стек (и еще немного мусора), только на ubuntu desktop. стоит на виртуалке на винде и зависаний не было

Если не эти зависания, технически сервер исправно работает. В чем может быть причина? как еще можно проверить

Ну как workaround, если плату нельзя сдать по гарантии, есть аппаратные watchdog, которые при зависании компа умеют жать на кнопку ресет. Втыкаются в юсб порт и подключаются к кнопкам. На убунту нужно будет установить софт, который будет пинговать ватчдог, по отсутствии пинга тот будет определять зависание. Можно купить на авито у майнеров б/у дешево. Может быть даже эта материнка имеет встроеный.

goingUp ★★★★★
()
Последнее исправление: goingUp (всего исправлений: 1)

Выводи логи ядра на последовательный порт, к порту подключись с другого компьютера. Может быть, в логах промелькнёт что-нибудь, что не успевает сохраниться в логах на диске.

debugger ★★★★★
()

Попробуй процы по одному вынимать, потом память, БП тоже бы проверить подкинув заведомо исправный. Про прогоны мемтеста ни о чем не говорит, ведь проблема плавающая

cobold ★★★★★
()

Если не эти зависания, технически сервер исправно работает. В чем может быть причина? как еще можно проверить

Обрати внимание на систему регулировки производительности процов - в простое падает частота и напряжение на проце и памяти.
В моем случае это был ноут на i5 и добавленная планка памяти отваливалась при снижении напруги, что приводило к зависанию (при нагрузке и тестировании память прекрасно работала без ошибок). Вылечилось командой ядра не засыпать глубоко (там много ступенек снижения частоты и напряжения).
Хотя у вас железо серверное, но наверняка тоже есть снижение частоты и напряжения при простое. Тут вопрос - сервер свежесобранный или давно работает. Не добавляли ли недавно память.

sigurd ★★★★★
()
Последнее исправление: sigurd (всего исправлений: 1)

Докер тут часто всякие обезьяны ругают, но он позволяет ограничивать ресурсы. Подробнее тут. Но думаю это никак уже не поможет, OOM-killer убивал бы питон или кликхаус, а если не работает ssh, то проблемы, возможно, имеют железную природу. Надо бы вольтметр взять, да только если знать, где что измерять… Хотя если порты все занять… А с него спам не рассылают или какой ICMP/SYN-флуд?

rtxtxtrx
()
Последнее исправление: rtxtxtrx (всего исправлений: 1)
Ответ на: комментарий от goingUp

а мыслей про аппаратные проблемы у вас не было

Собственно и начал проверять то, что есть возможность проверить)

есть аппаратные watchdog

Спасибо, буду иметь их ввиду. а потенциально частый хардресет не будет убивать систему? ПО и апаратуру?

Спасибо всем за ответы и помощь Вроде бы это проблема встречается на x99 чипсете и связана с переходом в энергосберегающий режим. Для решения надо в биосе зайти в IntelRCSetup > Advanced Power Management Configuration > CPU C State Control

и выставить такие параметры

  • Package C State limit на C2 state
  • CPU C3 report на Enable
  • CPU C6 report на Disable

Пока прошло всего три дня, если не вернусь сюда, значит проблема с зависанием была решена

PoopyMaster
() автор топика
Ответ на: комментарий от Dimez

Буду приводить этот тред всем, кто советует купить хуанан.

А есть какие-то другие материнские платы для такой сборки? Что бы вы предложили? хуанан взял по причине отсутствия на рынке каких-либо аналогов. Ну либо я просто все пропустил

PoopyMaster
() автор топика
Ответ на: комментарий от PoopyMaster

а потенциально частый хардресет не будет убивать систему? ПО и апаратуру?

Оборудованию, естественно, пофиг, а вот FS может побиться от постоянных резетов.

Dimez ★★★★★
()