LINUX.ORG.RU
ФорумAdmin

kernel oops

 ,


0

1

Как понять из-за чего это и что с этим делать ? Сервер регулярно падает. Сервер в хецнере. Проверял мемтестом проблем не нашел. Debian 9 с ядром из backports , docker.

Feb 13 03:37:47 144.76.108.149 [26614.164185] BUG: unable to handle kernel paging request at ffffffffb2ca9628
Feb 13 03:37:47 144.76.108.149 [26614.164261] IP: 0xffffffffb2ca9628
Feb 13 03:37:47 144.76.108.149 [26614.164317] PGD 14c60e067 P4D 14c60e067 PUD 14c60f063 PMD 0
Feb 13 03:37:47 144.76.108.149 [26614.164380] Oops: 0010 [#1] SMP PTI
Feb 13 03:37:47 144.76.108.149 [26614.164437] Modules linked in: veth xt_nat ipt_MASQUERADE nf_nat_masquerade_ipv4 nf_conntrack_netlink nfnetlink xfrm_user xfrm_algo xt_addrtype br_netfilter bridge stp llc overlay cpufreq_userspace cpufreq_conservative cpufreq_powersave xt_comment xt_tcpudp xt_conntrack xt_multiport iptable_filter iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack intel_rapl x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel kvm irqbypass crct10dif_pclmul crc32_pclmul ghash_clmulni_intel intel_cstate evdev intel_uncore iTCO_wdt ppdev mxm_wmi iTCO_vendor_support sg serio_raw intel_rapl_perf shpchp parport_pc parport lpc_ich battery mfd_core tpm_infineon video button wmi netconsole configfs ip_tables x_tables autofs4 ext4 crc16 mbcache jbd2 fscrypto ecb btrfs zstd_decompress zstd_compress
Feb 13 03:37:47 144.76.108.149 [26614.164817]  xxhash raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c crc32c_generic raid0 multipath linear raid1 md_mod sd_mod crc32c_intel ahci aesni_intel libahci aes_x86_64 crypto_simd xhci_pci cryptd ehci_pci glue_helper libata xhci_hcd ehci_hcd scsi_mod i2c_i801 r8169 mii usbcore usb_common fan thermal
Feb 13 03:37:47 144.76.108.149 [26614.165015] CPU: 2 PID: 159245 Comm: java Not tainted 4.14.0-0.bpo.3-amd64 #1 Debian 4.14.13-1~bpo9+1
Feb 13 03:37:47 144.76.108.149 [26614.165098] Hardware name: MSI MS-7816/H87-G43 (MS-7816), BIOS V2.14B6 08/23/2013
Feb 13 03:37:47 144.76.108.149 [26614.165177] task: ffff8f88e1595040 task.stack: ffff9ac00c840000
Feb 13 03:37:47 144.76.108.149 [26614.165238] RIP: 0010:0xffffffffb2ca9628
Feb 13 03:37:47 144.76.108.149 [26614.165296] RSP: 0018:ffff9ac00c843d00 EFLAGS: 00010082
Feb 13 03:37:47 144.76.108.149 [26614.165357] RAX: 0000000000000000 RBX: ffff8f8936d25000 RCX: dead000000000200
Feb 13 03:37:47 144.76.108.149 [26614.165420] RDX: ffff8f895eaa2308 RSI: ffff8f88e1595100 RDI: ffff8f88e1595100
Feb 13 03:37:47 144.76.108.149 [26614.165484] RBP: ffff8f88e1595100 R08: 0000000000000001 R09: 0000000000000351
Feb 13 03:37:47 144.76.108.149 [26614.165547] R10: 000000000000033d R11: ffff8f88e1595040 R12: 0000000000000009
Feb 13 03:37:47 144.76.108.149 [26614.165615] R13: 0000000000000009 R14: 0000000000000000 R15: 00000000000493df
Feb 13 03:37:47 144.76.108.149 [26614.165679] FS:  00007f7c7c7f9700(0000) GS:ffff8f895ea80000(0000) knlGS:0000000000000000
Feb 13 03:37:47 144.76.108.149 [26614.165759] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Feb 13 03:37:47 144.76.108.149 [26614.165820] CR2: ffffffffb2ca9628 CR3: 00000005307b4006 CR4: 00000000001606e0
Feb 13 03:37:47 144.76.108.149 [26614.165883] Call Trace:
Feb 13 03:37:47 144.76.108.149 [26614.165942]  ? __switch_to+0x12f/0x450
Feb 13 03:37:47 144.76.108.149 [26614.166002]  ? __schedule+0x427/0x850
Feb 13 03:37:47 144.76.108.149 [26614.166062]  ? hrtimer_start_range_ns+0x18d/0x330
Feb 13 03:37:47 144.76.108.149 [26614.166123]  ? schedule+0x32/0x80
Feb 13 03:37:47 144.76.108.149 [26614.166180]  ? schedule_hrtimeout_range_clock+0xb9/0x1a0
Feb 13 03:37:47 144.76.108.149 [26614.166245]  ? __hrtimer_init+0xb0/0xb0
Feb 13 03:37:47 144.76.108.149 [26614.166305]  ? ep_poll+0x32d/0x410
Feb 13 03:37:47 144.76.108.149 [26614.166362]  ? wake_up_q+0x70/0x70
Feb 13 03:37:47 144.76.108.149 [26614.166420]  ? SyS_epoll_wait+0xc1/0xe0
Feb 13 03:37:47 144.76.108.149 [26614.166478]  ? system_call_fast_compare_end+0xc/0x6f
Feb 13 03:37:47 144.76.108.149 [26614.166539] Code:  Bad RIP value.
Feb 13 03:37:47 144.76.108.149 [26614.166600] RIP: 0xffffffffb2ca9628 RSP: ffff9ac00c843d00
Feb 13 03:37:47 144.76.108.149 [26614.166660] CR2: ffffffffb2ca9628
Feb 13 03:37:47 144.76.108.149 [26614.166717] ---[ end trace 5a4c1db381f3b697 ]---
★★

pc_шное железо... в pci слотах стоит что нибудь? там pci-шина реализована отдельным контроллером ASM1083. с ним известный баг.

anonymous ()
Ответ на: комментарий от tugrik

Если память целая, то похоже на аппаратную проблему. Либо на какой-то особо эпичный баг в ядре. Попробуй разные версии по возможности потыкать, но скорее всего железо.

Dark_SavanT ★★★★★ ()

Обычно я такое на неисправных CPU вижу. Номер процессора в выхлопе паники всегда один и тот же? Также может быть два разных, но соответствующих одному физическому ядру.

post-factum ★★★★★ ()
Ответ на: комментарий от vel

Это ядро с backports.debian.org

https://backports.debian.org/changes/stretch-backports.html

 # uname -a
Linux  4.14.0-0.bpo.3-amd64 #1 SMP Debian 4.14.13-1~bpo9+1 (2018-01-14) x86_64 GNU/Linux

Должно быть массовым, ну и домен в *.debian.org думаю можно доверять. Или нет ?

Попробую в хецнер в тест сервер отдать, правда пишут что тестировать будут 10-14 часов, долго.

tugrik ★★ ()