LINUX.ORG.RU

Падает сервер. Где искать причину?

 ,


0

1

Сабж
Совсем падает, не отзывается по ssh. Помогает только перезагрузка.
Поднят nginx к которому идут частые обращения. Статичная страница. Без php и прочего.
Но падает не nginx а весь сервер.
Как понять это ли причина или или что другое? Какие логи смотреть и на что?
Debian 9 x64

★★★★★

Последнее исправление: Qwentor (всего исправлений: 1)

Он и на клавиатуру не отзывается и Caps мигает или только сеть отпадывает?

mky ★★★★★
()

«не отзывается по ssh» и «cовсем падает» - это не одно и то же. Смотри в dmesg для начала.

Deleted
()
Ответ на: комментарий от anonymous

У меня доступ только по ssh. Перезагружаю не я

Qwentor ★★★★★
() автор топика
Ответ на: комментарий от Qwentor

Вероятность того, что сообщение уйдёт в сеть, намного больше, чем того, что оно будет записано на диск в целости и сохранности. Да и, может, у тебя диск как раз и клинит, кто знает.

Ну и паника на диск просто так не пишется. А в netconsole очень даже улетает в большинстве случаев.

post-factum ★★★★★
()

Но падает не nginx а весь сервер

Но падает не nginx а весь сервер. Сервер чего падает?

piwww ★★★★
()
Ответ на: комментарий от SevikL

пингани свой сервак, или лучше нмапни (nmap)

piwww ★★★★
()
Ответ на: комментарий от piwww

Канцолька убунты, патти на винде, JuiceSSH на андрюхе, если это важно

Qwentor ★★★★★
() автор топика
Ответ на: комментарий от piwww

«Сайт» лежит, ссш недоступен - так узнал

Qwentor ★★★★★
() автор топика

Ну повесь скрипт который будет список процессов и ресурсы в файлик писать каждую минуту. Мож у тебя нжиникс криво настроен и плодит 100500 процессов, которые выжирают всю память и к тебе приходит оом шмуклер.

ya-betmen ★★★★★
()
Ответ на: комментарий от ya-betmen

ммм.. спасибо, вероятность не нулевая.
Хотя вот сейчас воркеров nginx 8 штук всего

Qwentor ★★★★★
() автор топика
Ответ на: комментарий от post-factum

В /var/log/messages нашел такое:

Dec 26 11:32:19 localhost kernel: [48047.985929] Bad pagetable: 000d [#1] SMP
Dec 26 11:32:19 localhost kernel: [48047.985968] Modules linked in: veth xt_nat nf_conntrack_netlink nfnetlink xfrm_user xfrm_algo xt_addrtype xt_conntrack br_netfilter overlay aufs(O) xt_CHECKSUM iptable_mangle ipt_MASQUERADE nf_nat_masquerade_ipv4 iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack binfmt_misc xt_tcpudp bridge stp llc iptable_filter fuse cpufreq_userspace cpufreq_powersave cpufreq_conservative intel_rapl x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel iTCO_wdt iTCO_vendor_support ppdev mxm_wmi kvm irqbypass crct10dif_pclmul crc32_pclmul ghash_clmulni_intel intel_cstate intel_uncore intel_rapl_perf evdev lpc_ich sg mfd_core shpchp serio_raw parport_pc parport wmi video button ip_tables x_tables autofs4 ext4 crc16 jbd2 fscrypto ecb mbcache btrfs raid10 raid456 async_raid6_recov async_memcpy
Dec 26 11:32:19 localhost kernel: [48047.988416]  async_pq async_xor async_tx xor raid6_pq libcrc32c crc32c_generic raid0 multipath linear raid1 md_mod sd_mod crc32c_intel aesni_intel aes_x86_64 ahci glue_helper lrw libahci gf128mul ablk_helper cryptd libata xhci_pci ehci_pci xhci_hcd ehci_hcd i2c_i801 scsi_mod i2c_smbus r8169 mii usbcore usb_common fan thermal
Dec 26 11:32:19 localhost kernel: [48047.989709] CPU: 6 PID: 1941 Comm: python3 Tainted: G           O    4.9.0-8-amd64 #1 Debian 4.9.110-3+deb9u6
Dec 26 11:32:19 localhost kernel: [48047.989780] Hardware name: MSI MS-7816/H87-G43 (MS-7816), BIOS V2.14B13 03/23/2018
Dec 26 11:32:19 localhost kernel: [48047.989847] task: ffff9bb53f5d7080 task.stack: ffffaed788234000
Dec 26 11:32:19 localhost kernel: [48047.989899] RIP: 0033:[<00007f5a8e419676>]  [<00007f5a8e419676>] 0x7f5a8e419676
Dec 26 11:32:19 localhost kernel: [48047.989997] RSP: 002b:00007ffe69ea3128  EFLAGS: 00010283
Dec 26 11:32:19 localhost kernel: [48047.990049] RAX: 000055ecbc4d72ef RBX: 000055ecbc4d72ef RCX: 00000000000002ef
Dec 26 11:32:19 localhost kernel: [48047.990103] RDX: 000000000000003f RSI: 000055ecbc4d72ef RDI: 000055ecbc4d72ef
Dec 26 11:32:19 localhost kernel: [48047.990158] RBP: 00007f5a88dba548 R08: 000000000000004f R09: 00007ffe69ea3670
Dec 26 11:32:19 localhost kernel: [48047.990212] R10: 00007f5a88db4000 R11: 0000000000000015 R12: 000055ecbc7a5400
Dec 26 11:32:19 localhost kernel: [48047.990266] R13: 00007f5a8c840e60 R14: 000055ecbc4bb3fe R15: 0000000000000001
Dec 26 11:32:19 localhost kernel: [48047.990321] FS:  00007f5a8f6b4700(0000) GS:ffff9bb59eb80000(0000) knlGS:0000000000000000
Dec 26 11:32:19 localhost kernel: [48047.990388] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec 26 11:32:19 localhost kernel: [48047.990440] CR2: 000055ecbc4d72ef CR3: 00000007dd73e000 CR4: 0000000000160670
Dec 26 11:32:19 localhost kernel: [48047.990577]  RSP <00007ffe69ea3128>
Dec 26 11:32:19 localhost kernel: [48047.990626] ---[ end trace 4b12813d8229a1e6 ]---
Dec 26 12:58:30 localhost kernel: [53219.471277] python3[24605]: segfault at 36 ip 000055822e05fe0f sp 00007f9807169418 error 6 in python3.5[55822de93000+3f0000]


Bad pagetable - это что за зверь?
И тут рядом python3 и сегфолт. Скрипты на питоне сожрали всю память?

Полный лог: https://yadi.sk/d/u8Sji4TUv7-3pg
(на пастебин не влезло)

Qwentor ★★★★★
() автор топика
Последнее исправление: Qwentor (всего исправлений: 1)
Ответ на: комментарий от Qwentor

Похоже на проблемы с железом. Возможно, с диском.

Deleted
()

А логи смотреть не пробовал?

Могло же что-то отписать перед падением.

А вообще - похоже на блок питания.

slamd64 ★★★★★
()
Ответ на: комментарий от Qwentor

Обычный непонятный memory corruption:

$ echo "Code: 40 00 74 0a 49 8b 04 24 31 c9 a8 04 74 88 65 48 8b 04 25 c0 fb 00 00 48 c7 40 10 00 00 00 00 31 c0 48 83 7b 40 00 0f 94 c0 48 93 <c4> 08 5b 5d 41 5c c3 48 89 ef e8 92 fa ac ff 84 c0 74 b3 31 ff" | scripts/decodecode
…
  26:   0f 94 c0                sete   %al
  29:   48 93                   xchg   %rax,%rbx
  2b:*  c4                      (bad)           <-- trapping instruction
  2c:   08 5b 5d                or     %bl,0x5d(%rbx)
  2f:   41 5c                   pop    %r12
…

Это значит, что что-то смогло переписать/повредить даже text kernel'а.

Я так понимаю, у тебя из сторонних модулей только aufs? Если да, выгружай его и наблюдай дальше. А так может быть и память битая, да.

post-factum ★★★★★
()

Но падает не nginx а весь сервер.

весь сервер или только доступ по сисяш?

darkenshvein ★★★★★
()
Ответ на: комментарий от Qwentor

If your Linux kernel is version 4.0 or higher, and you use Docker CE, consider using the newer overlay2, which has potential performance advantages over the aufs storage driver.

SevikL ★★★★★
()
Ответ на: комментарий от post-factum

Да, вроде свежий.
Спасибо, попробую выгрузить тогда и посмотреть

Qwentor ★★★★★
() автор топика

Там в падениях есть секциии типа

 [58714.721782]  [<ffffffffb2737cae>] ? radix_tree_lookup_slot+0x1e/0x50
 [58714.721784]  [<ffffffffb25815db>] ? find_get_entry+0x1b/0x100
 [58714.721786]  [<ffffffffb2581ea0>] ? pagecache_get_page+0x30/0x2a0
 [58714.721787]  [<ffffffffb2583f61>] ? filemap_fault+0x81/0x5d0

Это баг в ядре. Завезли его в момент выхода ядер 4.14 и видимо бекпортировали в 4.9 :(

На i386/PAE это баг сразу вполз, были патчи, которые так и не попали в официальное ядро. У меня оно на java приложениях роняло машину.

https://bugzilla.kernel.org/show_bug.cgi?id=198497

То, что оно теперь проявилось на x86_86 - это совсем плохо.

vel ★★★★★
()
Последнее исправление: vel (всего исправлений: 1)

Я бы советовал заменить раму, для начала. Ну это если нет возможности играть с сервером и сервисы его необходимы

vova7890 ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.