LINUX.ORG.RU

Как понять почему упал сервер?

 , ,


0

2

Вчера упал сервер, включили только сегодня. Как понять почему произошло падение? Какие логи и где смотреть?

/var/log/messages за вчера содержит только это:

May  3 06:25:01 localhost liblogging-stdlog:  [origin software="rsyslogd" swVersion="8.24.0" x-pid="583" x-info="http://www.rsyslog.com"] rsyslogd was HUPed


kern.log начинается сегодня, после включения

kern.log.1 заканчивается 19 апреля

В syslog ничего, кроме лога запуска задач по крону

Система Debian 9 amd64

Где искать?

★★★★

Вчера упал сервер, включили только сегодня.

Что у тебя тут означает «упал», что его пришлось включать?

Какие логи и где смотреть?

если точно не указан дистрибутив, то подразумевается тэг debian и текущий stable. тогда начинай смотреть всё за вчера
journalctl --since «2019-05-03»

bass ★★★★★ ()
Последнее исправление: bass (всего исправлений: 1)
Ответ на: комментарий от Qwentor

Т.е. логов, как я понял, не осталось?

Откуда там логи то, если кернел панику словил. Если что и было полезное, то в консоли. Похоже, что железка какая-то проблемная, так и будет падать сервак, но скорее всего редко.

vvn_black ★★★★★ ()
Ответ на: комментарий от Dimez

Если в логах ничего нет, значит, ядро не успело ничего записать в них и надо поднимать netconsole.

+1

А при наличии возможности - serial console. Там для поддержки кода нужно меньше, так что работает надёжнее в аварийных ситуациях.

Deleted ()
Последнее исправление: Deleted (всего исправлений: 1)
Ответ на: комментарий от Deleted

А при наличии возможности - serial console.

Вот уже полгода мучаюсь с serial console на сервере в scaleway... Там можно понять, что написано, но далеко не всегда и не полностью.

Dimez ★★★★★ ()
Ответ на: комментарий от Dimez

Поднял netconsole. Пока не падало, но в логах такое:

[25334.014869] netconsole: network logging started
[110354.630803] perf: interrupt took too long (2542 > 2500), lowering kernel.perf_event_max_sample_rate to 78500
[141673.472664] perf: interrupt took too long (3193 > 3177), lowering kernel.perf_event_max_sample_rate to 62500
[515217.254144] conntrack: generic helper won't handle protocol 47. Please consider loading the specific helper module.
[623157.826950] perf: interrupt took too long (3997 > 3991), lowering kernel.perf_event_max_sample_rate to 50000
[748534.930696] traps: python3[24559] general protection ip:56354031cede sp:7ffaf631c260 error:0[748534.930766]  in python3.5[563540126000+3f0000]
[930646.538441] md: data-check of RAID array md1
[930646.538500] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[930646.538556] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[930646.538633] md: using 128k window, over a total of 523712k.
[930646.610376] md: delaying data-check of md2 until md1 has finished (they share one or more physical units)
[930648.983961] md: md1: data-check done.
[930648.989485] md: data-check of RAID array md2
[930648.989549] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[930648.989614] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[930648.989694] md: using 128k window, over a total of 232624448k.
[931820.794399] md: md2: data-check done.


Вот это что означает?
traps: python3[24559] general protection ip:56354031cede sp:7ffaf631c260 error:0[748534.930766]  in python3.5[563540126000+3f0000]


По какой причине такая ошибка? Нехватка памяти?

Qwentor ★★★★ ()