LINUX.ORG.RU
решено ФорумAdmin

Перегружается сервер странным образом...

 , ,


0

1

Приветы!

В общем, сервер кажется Супермикро, мать Интел, процессор Хеон и сабж и эта самая перегрузка носит ооочень странных характер. Иногда неделями не перегружается, иногда бывает несколько раз чуть ли не подряд. Грешу на контроллер диска или сетевую, но есть странные выпады в сторону проца у ядра.

perf: interrupt took too long (2505 > 2500), lowering kernel.perf_event_max_sample_rate to 79750 perf: interrupt took too long (3154 > 3131), lowering kernel.perf_event_max_sample_rate to 63250 perf: interrupt took too long (3947 > 3942), lowering kernel.perf_event_max_sample_rate to 50500 perf: interrupt took too long (4934 > 4933), lowering kernel.perf_event_max_sample_rate to 40500

есть и такие:

[Firmware Bug]: ACPI: Invalid BIOS _PSS frequency found for processor 5: 0x80000000 MHz [Firmware Bug]: ACPI: Invalid BIOS _PSS frequency found for processor 6: 0x80000000 MHz [Firmware Bug]: ACPI: No valid BIOS _PSS frequency found for processor 7

В общем, все бы ничего, да там крутится отличное Интернет-радио, которое начал слушать народ в последнее время и это уже становится неприличным. В логах ничего предвещающее проблему перед перезагрузкой не обнаруживаю. У меня стоит отправка почты на крон по ребуту и я точно знаю время перезагрузки.

Может, конечно, и память, как проверить? Заранее спасибо!

Сервер случаем не запитан от умного Ups?

Просто у меня были похожие странности, на виндовом сервере, стареньком. В логах ничего, кроме перезагрузка была неожиданной, а уж для меня она как была неожиданной, периодичность тоже…. не предсказуема. И вот в один момент сервак мне стал кидать сообщение что работает от упсника и работать ему остались минуты, при том что 220 никуда не девалось. Крыша сьехала у упса, акб наконец то диагностировался что надо менять. Акб я поменял но вот, как говорится ложечки то нашлись, но осадочек остался. Чего то не хочу больше его питать от этого упса.

alex_sim ★★★ ()
Последнее исправление: alex_sim (всего исправлений: 1)
Ответ на: комментарий от alex_sim

Сервер случаем не запитан от умного Ups?

Интересная идея. Поменяли UPS недавно, но перезагрузки остались.. но надо рассмотреть все варианты.

powerguy ★★★ ()

Есть такая штука - netconsole. Может успеть отправить трап ядра на syslog-сервер. Но может и не успеть. Надёжнее, конечно, через RS-232 на соседний комп поймать, но есть ли RS-232 на современном сервере... лог, кстати, тоже полезно на syslog-сервер лить - больше останется.

AS ★★★★★ ()
Последнее исправление: AS (всего исправлений: 1)

Смотри логи IPMI/BMC.
Сообщения от perf и ACPI скорее всего ни причем. Видел их на многих серверах.

bigbit ★★★★★ ()
Ответ на: комментарий от AS

Rs 232 есть на современных серверах, разъем правда езернет, как у сетевухи

Супермикро у меня нет и не было, но с 15 года до 20 на инетеловских серваках Com порт был, с разъемом езернет.

alex_sim ★★★ ()
Последнее исправление: alex_sim (всего исправлений: 1)
Ответ на: комментарий от alex_sim

с разъемом езернет.

Только RJ-45 он называется. Да, бывает такое. И раньше было часто, а вот сейчас - вопрос.

AS ★★★★★ ()
Ответ на: комментарий от AS

Да RJ-45, последний сервер на интеловской платформе куплен в этом году, com присутствует.

alex_sim ★★★ ()

сервер кажется Супермикро, мать Интел, процессор Хеон

Если ты хочешь технической помощи, то нужно точно указать железо и приложить dmesg от включения до поднятия всех сервисов

Сообщения perf информационные, к теме не имеют отношения.

Invalid BIOS _PSS frequency found for processor 5

говорит о том, он не знает как рулить power-perfomance процессора. Либо ты биос обновляешь, либо, если нет обновлений, включаешь в секции power все поля в native

bass ★★★★★ ()
Ответ на: комментарий от bass

Привет!

вот dmesg. Сегодня перегружался серийно. 5 раз с различной разницей во времени 20-50 минут. А до этого неделю нет.

https://pastebin.com/0QqXUjAu

Base Board Information
	Manufacturer: Intel
	Product Name: S5000VSA
	Version: Not Specified
	Serial Number: QSSA74700996
	Asset Tag: Not Specified
	Features:
		Board is a hosting board
		Board is replaceable
	Location In Chassis: Not Specified
	Chassis Handle: 0x0000
	Type: Motherboard
	Contained Object Handles: 

Processor Information
	Socket Designation: CPU1
	Type: Central Processor
	Family: Xeon
	Manufacturer: Intel(R) Corporation
	ID: 76 06 01 00 FF FB EB BF
	Signature: Type 0, Family 6, Model 23, Stepping 6
	Flags:
		FPU (Floating-point unit on-chip)
		VME (Virtual mode extension)
		DE (Debugging extension)
		PSE (Page size extension)
		TSC (Time stamp counter)
		MSR (Model specific registers)
		PAE (Physical address extension)
		MCE (Machine check exception)
		CX8 (CMPXCHG8 instruction supported)
		APIC (On-chip APIC hardware supported)
		SEP (Fast system call)
		MTRR (Memory type range registers)
		PGE (Page global enable)
		MCA (Machine check architecture)
		CMOV (Conditional move instruction supported)
		PAT (Page attribute table)
		PSE-36 (36-bit page size extension)
		CLFSH (CLFLUSH instruction supported)
		DS (Debug store)
		ACPI (ACPI supported)
		MMX (MMX technology supported)
		FXSR (FXSAVE and FXSTOR instructions supported)
		SSE (Streaming SIMD extensions)
		SSE2 (Streaming SIMD extensions 2)
		SS (Self-snoop)
		HTT (Multi-threading)
		TM (Thermal monitor supported)
		PBE (Pending break enabled)
	Version: Intel(R) Xeon(R) CPU           E5405  @ 2.00GHz
	Voltage: 1.1 V
	External Clock: 1333 MHz
	Max Speed: 2000 MHz
	Current Speed: 2000 MHz
	Status: Populated, Enabled
	Upgrade: ZIF Socket
	L1 Cache Handle: 0x0031
	L2 Cache Handle: 0x0030
	L3 Cache Handle: Not Provided
	Serial Number: Not Specified
	Asset Tag: Not Specified
	Part Number: Not Specified
	Core Count: 4
	Core Enabled: 4
	Thread Count: 4
	Characteristics:
		64-bit capable
powerguy ★★★ ()
Последнее исправление: powerguy (всего исправлений: 1)
Ответ на: комментарий от powerguy

У тебя ошибки MCE.
Поставь mcelog, запусти, смотри его лог.
А чего логи IPMI не показываешь? Это ведь сервер, IPMI должен быть.

bigbit ★★★★★ ()
Ответ на: комментарий от powerguy

Что, неужели проц? Кто скажет. Спасибо

Error enabled
Processor context corrupt
MCA: BUS error: 1 3 Level-3 Generic Generic Other-transaction Request-did-not-timeout
Running trigger `bus-error-trigger'
mcelog: Too many trigger children running already
BQ_DCU_READ_TYPE BQ_ERR_AERR2_TYPE BQ_ERR_AERR2_TYPE internal BINIT
STATUS b200000044000e0f MCGSTATUS 0
MCGCAP 806 APICID 6 SOCKETID 1 
CPUID Vendor Intel Family 6 Model 23
Hardware event. This is not a software error.
MCE 3
CPU 6 BANK 5 
TIME 1605507659 Mon Nov 16 09:20:59 2020
MCG status:
MCi status:
Uncorrected error
powerguy ★★★ ()
Последнее исправление: powerguy (всего исправлений: 1)
Ответ на: комментарий от powerguy

Никто не ответил, возможно редкая хрень. В общем, кажется, вылечилось установкой пакета с обновленным firmware для Intel CPU:

apt-get install intel-microcode

Вторая неделя пошла, полет нормальный, даже перегружаться не пришлось. Ошибок больше нет в dmesg.

Уточню. Старый стоечный сервак:

Процессор  Intel(R) Xeon(R) CPU E5405  @ 2.00GHz
Мать Intel S5000VSA
ОС Proxmox 5.0 (Debian 9.12 stretch)
powerguy ★★★ ()
Последнее исправление: powerguy (всего исправлений: 1)
Ограничение на отправку комментариев: только для зарегистрированных пользователей