Как понять почему упал сервер?

0

2

Вчера упал сервер, включили только сегодня. Как понять почему произошло падение? Какие логи и где смотреть?

/var/log/messages за вчера содержит только это:

May  3 06:25:01 localhost liblogging-stdlog:  [origin software="rsyslogd" swVersion="8.24.0" x-pid="583" x-info="http://www.rsyslog.com"] rsyslogd was HUPed

kern.log начинается сегодня, после включения

kern.log.1 заканчивается 19 апреля

В syslog ничего, кроме лога запуска задач по крону

Система Debian 9 amd64

Где искать?

Ссылка

← LXC unprivileged containers в Gentoo

Wake on Lan в Asus UEFI X542UN →

Вчера упал сервер, включили только сегодня.

Что у тебя тут означает «упал», что его пришлось включать?

Какие логи и где смотреть?

если точно не указан дистрибутив, то подразумевается тэг debian и текущий stable. тогда начинай смотреть всё за вчера
journalctl --since «2019-05-03»

bass ★★★★★
(04.05.19 10:21:44 MSK)
Последнее исправление: bass 04.05.19 10:22:36 MSK (всего исправлений: 1)

Для начала journalctl -b -p err

gremlin_the_red ★★★★★
(04.05.19 10:22:24 MSK)

Ответ на: комментарий от gremlin_the_red 04.05.19 10:22:24 MSK

journalctl -b -p err

Failed to create a cgroup for user root

Qwentor ★★★★★
(04.05.19 10:28:23 MSK) автор топика

Ссылка

Ответ на: комментарий от bass 04.05.19 10:21:44 MSK

journalctl --since «2019-05-03»

выдает информацию только с сегодняшнего дня

Qwentor ★★★★★
(04.05.19 10:31:50 MSK) автор топика

Ответ на: комментарий от Qwentor 04.05.19 10:31:50 MSK

journal по дефолту не ведёт запись

symon2014 ★★
(04.05.19 11:00:50 MSK)

Ответ на: комментарий от symon2014 04.05.19 11:00:50 MSK

Т.е. логов, как я понял, не осталось?

Qwentor ★★★★★
(04.05.19 11:02:11 MSK) автор топика

Ответ на: комментарий от Qwentor 04.05.19 11:02:11 MSK

Т.е. логов, как я понял, не осталось?

Откуда там логи то, если кернел панику словил. Если что и было полезное, то в консоли. Похоже, что железка какая-то проблемная, так и будет падать сервак, но скорее всего редко.

vvn_black ★★★★★
(04.05.19 11:49:18 MSK)

Ссылка

Если в логах ничего нет, значит, ядро не успело ничего записать в них и надо поднимать netconsole.

Deleted
(05.05.19 15:20:34 MSK)

Ответ на: комментарий от Deleted 05.05.19 15:20:34 MSK

Если в логах ничего нет, значит, ядро не успело ничего записать в них и надо поднимать netconsole.

А при наличии возможности - serial console. Там для поддержки кода нужно меньше, так что работает надёжнее в аварийных ситуациях.

Deleted
(05.05.19 15:35:35 MSK)
Последнее исправление: Deleted 05.05.19 15:35:55 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 05.05.19 15:35:35 MSK

А при наличии возможности - serial console.

Вот уже полгода мучаюсь с serial console на сервере в scaleway... Там можно понять, что написано, но далеко не всегда и не полностью.

Deleted
(05.05.19 15:45:13 MSK)

Ответ на: комментарий от Deleted 05.05.19 15:45:13 MSK

Поднял netconsole. Пока не падало, но в логах такое:

[25334.014869] netconsole: network logging started
[110354.630803] perf: interrupt took too long (2542 > 2500), lowering kernel.perf_event_max_sample_rate to 78500
[141673.472664] perf: interrupt took too long (3193 > 3177), lowering kernel.perf_event_max_sample_rate to 62500
[515217.254144] conntrack: generic helper won't handle protocol 47. Please consider loading the specific helper module.
[623157.826950] perf: interrupt took too long (3997 > 3991), lowering kernel.perf_event_max_sample_rate to 50000
[748534.930696] traps: python3[24559] general protection ip:56354031cede sp:7ffaf631c260 error:0[748534.930766]  in python3.5[563540126000+3f0000]
[930646.538441] md: data-check of RAID array md1
[930646.538500] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[930646.538556] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[930646.538633] md: using 128k window, over a total of 523712k.
[930646.610376] md: delaying data-check of md2 until md1 has finished (they share one or more physical units)
[930648.983961] md: md1: data-check done.
[930648.989485] md: data-check of RAID array md2
[930648.989549] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[930648.989614] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
[930648.989694] md: using 128k window, over a total of 232624448k.
[931820.794399] md: md2: data-check done.

Вот это что означает?

traps: python3[24559] general protection ip:56354031cede sp:7ffaf631c260 error:0[748534.930766]  in python3.5[563540126000+3f0000]

По какой причине такая ошибка? Нехватка памяти?

Qwentor ★★★★★
(19.05.19 11:55:21 MSK) автор топика

Ответ на: комментарий от Qwentor 19.05.19 11:55:21 MSK

Баг в питоне, наверное.

Deleted
(19.05.19 22:59:16 MSK)

Ответ на: комментарий от Deleted 19.05.19 22:59:16 MSK

А такой баг может привести к падению сервера?

Qwentor ★★★★★
(19.05.19 23:01:26 MSK) автор топика

Ответ на: комментарий от Qwentor 19.05.19 23:01:26 MSK

Нет, не может.

Deleted
(19.05.19 23:49:29 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← LXC unprivileged containers в Gentoo

General

Wake on Lan в Asus UEFI X542UN →

Похожие темы