LINUX.ORG.RU
ФорумAdmin

Проверить из за чего вырубается linux

 ,


0

2

Физический сервер на hetzner периодически отваливается , в логах последние записи заканчиваются в одно и тоже время . Есть ли какой то механизм выяснить , что именно происходит ? Как узнать от чего выключается или зависает ? т.е. хочется понять проблема с железом или с софтом ..

Ни в коем случае не пиши в саппорт.

xtraeft ★★☆☆ ()

в логах последние записи заканчиваются в одно и тоже время

похоже на cron, проверял?

повесь скрипт, который будет пинговать чего-нибудь и писать лог. Тогда узнаешь точно когда оно вырубилось, а дальше - в суппорт, если не натолкнет на мысли.

BaBL ★★★★★ ()

1. если нету никаких сегфолтов, оомкиллеров или прочих сбоев в логах, то проверься на руткиты, неверно установленные руткиты могут вести себя как угодно

2. если есть мониторинг, проверь нагрузку на cpu, mem и icmp , нужно понять что происходит перед «крахом системы» (если мониторинга нету и у hetzner тоже не ведется, то настрой)

3. если ничего выше не помогло сбой может быть аппаратный, напиши в саппорт, желательно подробно опиши что ты делал, как ты это обнаружил и как долго это длится

fura13 ★★★ ()
Последнее исправление: fura13 (всего исправлений: 1)

Какие именно симптомы? Вообще по сети никак не доступен, даже на пинги не отвечает?

Материнская плата какая у сервера (см. вывод dmidecode)? Помнится, в серверной линейке EQ они раньше ставили платы MSI с чипсетом Intel X58, имевшие проблемы с ACPI, из-за чего спонтанно всё могло зависать, но это решается.

frozen_twilight ★★ ()

ФС какая?

Обычно в таких случаях включается максимальный режим логов, и логи средствами логгера отправляются на другой сервак.

Kroz ★★★★★ ()

1) Подробные логи. В том числе при перезагрузке. Особое внимание обратить на логи оборудования и выполняющихся сервисов во вторую очередь.

2) Проверить все критические точки возможного отказа (свободное место на диске/массиве, заргузка ЦПУ(в том числе LA), ошибки на сетевых интерфейсах, загрузка и интенсивность использования дисков, использоване памяти итд)

3) Проверить на руткиты имеющимися средствами.

4) Поднять подробный мониторинг на самой машине и вне ее тоже.

5) После предварительных проверок описать подробно ситуацию в саппорт с описанием того, что было тобой предпринято.

Далее по ситуации.

ChAnton ★★ ()
Последнее исправление: ChAnton (всего исправлений: 2)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.