LINUX.ORG.RU
ФорумAdmin

Debian падает с нагрузкой на проц, stack trace и отуствием признаков жизни.

 ,


0

2

Ситуация такова: в какой-то момент времени на сервере под Debian 7 (Linux somesite.ru 3.1.0-1.2-xen #5 SMP Mon Mar 5 16:41:01 MSK 2012 x86_64 GNU/Linux, расположен у Selectel, облачный VDS) резко возрастает нагрузка до максимума. При этом на консоли такая картина маслом: stack trace, куча шестнадцатеричных чисел и версии ядра. Эта картина периодически обновляется, но в остальном пациет абсолютно мёртв, не отвечает ни на что, даже не перезагрузку и выключение. На текущий момент повторялось 2 раза, первый раз /var/log/syslog:

Nov 1 23:06:03 somesite postfix/smtp[11100]: EAD5C5D2129: to=<FID-MOJAYSK@mail.ru>, relay=mxs.mail.ru[94.100.176.20]:25, delay=21901, delays=21901/0.02/0.05/0.03, dsn=4.0.0, status=deferred (host mxs.mail.ru[94.100.176.20] said: 421 DNS problem (webmaster"@somesite.ru). Try again later (in reply to MAIL FROM command))
Nov 1 23:06:03 somesite postfix/smtp[11099]: 792165D20BA: to=<pli1@mail.ru>, relay=mxs.mail.ru[94.100.176.20]:25, delay=299130, delays=299129/0.02/0.05/0.05, dsn=4.0.0, status=deferred (host mxs.mail.ru[94.100.176.20] said: 421 DNS problem (webmaster"@somesite.ru). Try again later (in reply to MAIL FROM command))
Nov 1 23:06:03 somesite postfix/smtp[11102]: E4D0D5D213B: to=<victorc1@bk.ru>, relay=mxs.mail.ru[94.100.176.20]:25, delay=21894, delays=21894/0.02/0.05/0.03, dsn=4.0.0, status=deferred (host mxs.mail.ru[94.100.176.20] said: 421 DNS problem (webmaster"@somesite.ru). Try again later (in reply to MAIL FROM command))
Nov 1 23:06:03 somesite postfix/smtp[11101]: ED2725D2132: to=<573-9999@mail.ru>, relay=mxs.mail.ru[94.100.176.20]:25, delay=21879, delays=21879/0.02/0.04/0.06, dsn=4.0.0, status=deferred (host mxs.mail.ru[94.100.176.20] said: 421 DNS problem (webmaster"@somesite.ru). Try again later (in reply to MAIL FROM command))
Nov 1 23:06:03 somesite postfix/smtp[11097]: D64165D20BD: to=<Alligator170886@list.ru>, relay=mxs.mail.ru[94.100.176.20]:25, delay=299129, delays=299129/0.12/0.05/0.08, dsn=4.0.0, status=deferred (host mxs.mail.ru[94.100.176.20] said: 421 DNS problem (webmaster"@somesite.ru). Try again later (in reply to MAIL FROM command))
Nov 1 23:09:01 somesite /USR/SBIN/CRON[11134]: (root) CMD ( [ -x /usr/lib/php5/maxlifetime ] && [ -d /var/lib/php5 ] && find /var/lib/php5/ -depth -mindepth 1 -maxdepth 1 -type f -ignore_readdir_race -cmin +$(/usr/lib/php5/maxlifetime) ! -execdir fuser -s {} 2>/dev/null ; -delete)
Nov 1 23:29:54 somesite kernel: imklog 5.8.11, log source = /proc/kmsg started.
Nov 1 23:29:54 somesite rsyslogd: [origin software="rsyslogd" swVersion="5.8.11" x-pid="1864" x-info="http://www.rsyslog.com"] start
Nov 1 23:29:54 somesite kernel: [ 0.000000] Initializing cgroup subsys cpuset

второй раз то же самое:

Nov 11 11:45:02 somesite postfix/qmgr[3364]: 79CFA5D2090: removed
Nov 11 11:50:01 somesite /USR/SBIN/CRON[3086]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Nov 11 11:50:01 somesite /USR/SBIN/CRON[3087]: (somesite_ru) CMD (rm /home/somesite_ru/html/mainpage.html)
Nov 11 11:50:02 somesite postfix/smtp[2324]: 16C6C5D2091: conversation with smtp.somesite.ru[213.158.24.82] timed out while receiving the initial server greeting
Nov 11 11:50:02 somesite postfix/smtp[2324]: 16C6C5D2091: to=<smmsp@webmaster@somesite.ru>, relay=relay2.atnet.ru[213.158.16.7]:25, delay=300, delays=0.05/0/300/0.13, dsn=5.0.0, status=bounced (host relay2.atnet.ru[213.158.16.7] said: 550 Restricted characters in address (in reply to RCPT TO command))
Nov 11 11:50:02 somesite postfix/qmgr[3364]: 16C6C5D2091: removed
Nov 11 12:04:03 somesite kernel: imklog 5.8.11, log source = /proc/kmsg started.
Nov 11 12:04:03 somesite rsyslogd: [origin software="rsyslogd" swVersion="5.8.11" x-pid="1772" x-info="http://www.rsyslog.com"] start
Nov 11 12:04:03 somesite kernel: [    0.000000] Initializing cgroup subsys cpuset
Nov 11 12:04:03 somesite kernel: [    0.000000] Initializing cgroup subsys cpu
Nov 11 12:04:03 somesite kernel: [    0.000000] Linux version 3.1.0-1.2-xen (root@vm7777) (gcc version 4.6.2 (Debian 4.6.2-12) ) #5 SMP Mon Mar 5 16:41:01 MSK 2012
Nov 11 12:04:03 somesite kernel: [    0.000000] Command line: CPUFREQ=no console=xvc0 panic=15 barrier=off root=/dev/mapper/gauikt_system-root ro
Nov 11 12:04:03 somesite kernel: [    0.000000] Xen-provided physical RAM map:
Nov 11 12:04:03 somesite kernel: [    0.000000]  Xen: 0000000000000000 - 0000000180000000 (usable)
Nov 11 12:04:03 somesite kernel: [    0.000000] NX (Execute Disable) protection: active
Nov 11 12:04:03 somesite kernel: [    0.000000] last_pfn = 0x180000 max_arch_pfn = 0x80000000
Nov 11 12:04:03 somesite kernel: [    0.000000] last_pfn = 0x100000 max_arch_pfn = 0x80000000
Nov 11 12:04:03 somesite kernel: [    0.000000] initial memory mapped : 0 - 00000000
Nov 11 12:04:03 somesite kernel: [    0.000000] init_memory_mapping: 0000000000000000-0000000100000000
Nov 11 12:04:03 somesite kernel: [    0.000000]  0000000000 - 0100000000 page 4k
Nov 11 12:04:03 somesite kernel: [    0.000000] kernel direct mapping tables up to 100000000 @ 2f3c000-3741000
Nov 11 12:04:03 somesite kernel: [    0.000000] init_memory_mapping: 0000000100000000-0000000180000000
Nov 11 12:04:03 somesite kernel: [    0.000000]  0100000000 - 0180000000 page 4k
Nov 11 12:04:03 somesite kernel: [    0.000000] kernel direct mapping tables up to 180000000 @ 3741000-4348000
Nov 11 12:04:03 somesite kernel: [    0.000000] RAMDISK: 00a7d000 - 02d1e000
Nov 11 12:04:03 somesite kernel: [    0.000000] ACPI in unprivileged domain disabled
Nov 11 12:04:03 somesite kernel: [    0.000000] Zone PFN ranges:
Nov 11 12:04:03 somesite kernel: [    0.000000]   DMA      0x00000000 -> 0x00001000
Nov 11 12:04:03 somesite kernel: [    0.000000]   DMA32    0x00001000 -> 0x00100000
Nov 11 12:04:03 somesite kernel: [    0.000000]   Normal   0x00100000 -> 0x00180000
Nov 11 12:04:03 somesite kernel: [    0.000000] Movable zone start PFN for each node
Nov 11 12:04:03 somesite kernel: [    0.000000] early_node_map[2] active PFN ranges
Nov 11 12:04:03 somesite kernel: [    0.000000]     0: 0x00000000 -> 0x00040000
Nov 11 12:04:03 somesite kernel: [    0.000000]     0: 0x00180000 -> 0x00180000
Nov 11 12:04:03 somesite kernel: [    0.000000] On node 0 totalpages: 262144
Nov 11 12:04:03 somesite kernel: [    0.000000] free_area_init_node: node 0, pgdat ffffffff808fee80, node_mem_map ffff88003ac00000
Nov 11 12:04:03 somesite kernel: [    0.000000]   DMA zone: 56 pages used for memmap
Nov 11 12:04:03 somesite kernel: [    0.000000]   DMA zone: 0 pages reserved
Nov 11 12:04:03 somesite kernel: [    0.000000]   DMA zone: 4040 pages, LIFO batch:0
Nov 11 12:04:03 somesite kernel: [    0.000000]   DMA32 zone: 14280 pages used for memmap
Nov 11 12:04:03 somesite kernel: [    0.000000]   DMA32 zone: 243768 pages, LIFO batch:31
Nov 11 12:04:03 somesite kernel: [    0.000000]   Normal zone: 7168 pages exceeds realsize 0
Nov 11 12:04:03 somesite kernel: [    0.000000] setup_percpu: NR_CPUS:512 nr_cpumask_bits:512 nr_cpu_ids:8 nr_node_ids:1
Nov 11 12:04:03 somesite kernel: [    0.000000] PERCPU: Embedded 18 pages/cpu @ffff880039f3f000 s43712 r8192 d21824 u73728
Nov 11 12:04:03 somesite kernel: [    0.000000] pcpu-alloc: s43712 r8192 d21824 u73728 alloc=18*4096
Nov 11 12:04:03 somesite kernel: [    0.000000] pcpu-alloc: [0] 0 [0] 1 [0] 2 [0] 3 [0] 4 [0] 5 [0] 6 [0] 7
Nov 11 12:04:03 somesite kernel: [    0.000000] Swapping MFNs for PFN 920 and 39f45 (MFN 17159cf and f1e91c)
Nov 11 12:04:03 somesite kernel: [    0.000000] Built 1 zonelists in Zone order, mobility grouping on.  Total pages: 247808
Nov 11 12:04:03 somesite kernel: [    0.000000] Kernel command line: CPUFREQ=no console=xvc0 panic=15 barrier=off root=/dev/mapper/gauikt_system-root ro
Nov 11 12:04:03 somesite kernel: [    0.000000] PID hash table entries: 4096 (order: 3, 32768 bytes)
Nov 11 12:04:03 somesite kernel: [    0.000000] Dentry cache hash table entries: 131072 (order: 8, 1048576 bytes)
Nov 11 12:04:03 somesite kernel: [    0.000000] Inode-cache hash table entries: 65536 (order: 7, 524288 bytes)
Nov 11 12:04:03 somesite kernel: [    0.000000] allocated 50331648 bytes of page_cgroup
Nov 11 12:04:03 somesite kernel: [    0.000000] please try 'cgroup_disable=memory' option if you don't want memory cgroups
Nov 11 12:04:03 somesite kernel: [    0.000000] Software IO TLB disabled
Nov 11 12:04:03 somesite kernel: [    0.000000] Memory: 840288k/6291456k available (5185k kernel code, 5242880k absent, 208288k reserved, 4119k data, 420k init)
Nov 11 12:04:03 somesite kernel: [    0.000000] Hierarchical RCU implementation.
Nov 11 12:04:03 somesite kernel: [    0.000000]        RCU dyntick-idle grace-period acceleration is enabled.
Nov 11 12:04:03 somesite kernel: [    0.000000] nr_pirqs: 256
Nov 11 12:04:03 somesite kernel: [    0.000000] NR_IRQS:38912 nr_irqs:2624 16
Nov 11 12:04:03 somesite kernel: [    0.000000] Xen reported: 2300.044 MHz processor.
Nov 11 12:04:03 somesite kernel: [    0.000000] Console: colour dummy device 80x25
Nov 11 12:04:03 somesite kernel: [    0.000000] console [xvc0] enabled
Nov 11 12:04:03 somesite kernel: [    0.080014] Calibrating delay using timer specific routine.. 4672.29 BogoMIPS (lpj=9344585)
Nov 11 12:04:03 somesite kernel: [    0.080033] pid_max: default: 32768 minimum: 301
Nov 11 12:04:03 somesite kernel: [    0.080112] Security Framework initialized
Nov 11 12:04:03 somesite kernel: [    0.080136] AppArmor: AppArmor initialized
Nov 11 12:04:03 somesite kernel: [    0.080160] Mount-cache hash table entries: 256
Nov 11 12:04:03 somesite kernel: [    0.080317] Initializing cgroup subsys cpuacct
Nov 11 12:04:03 somesite kernel: [    0.080326] Initializing cgroup subsys memory
Nov 11 12:04:03 somesite kernel: [    0.080341] Initializing cgroup subsys devices
Nov 11 12:04:03 somesite kernel: [    0.080345] Initializing cgroup subsys freezer
Nov 11 12:04:03 somesite kernel: [    0.080348] Initializing cgroup subsys net_cls
Nov 11 12:04:03 somesite kernel: [    0.080352] Initializing cgroup subsys blkio
Nov 11 12:04:03 somesite kernel: [    0.080362] Initializing cgroup subsys perf_event
Nov 11 12:04:03 somesite kernel: [    0.080477] SMP alternatives: switching to UP code
Nov 11 12:04:03 somesite kernel: [    0.123369] Brought up 1 CPUs
Nov 11 12:04:03 somesite kernel: [    0.123535] devtmpfs: initialized
Nov 11 12:04:03 somesite kernel: [    0.123797] print_constraints: dummy:
Nov 11 12:04:03 somesite kernel: [    0.143634] RTC time: 165:165:165, date: 165/165/65
Nov 11 12:04:03 somesite kernel: [    0.143788] NET: Registered protocol family 16
Nov 11 12:04:03 somesite kernel: [    0.144204] SMP alternatives: switching to SMP code
Nov 11 12:04:03 somesite kernel: [    0.200150] Brought up 8 CPUs
Nov 11 12:04:03 somesite kernel: [    0.200563] PCI: Fatal: No config space access function found
Nov 11 12:04:03 somesite kernel: [    0.200567] PCI: setting up Xen PCI frontend stub
Nov 11 12:04:03 somesite kernel: [    0.200608] patch_vdso: .altinstructions not found
Nov 11 12:04:03 somesite kernel: [    0.200984] bio: create slab <bio-0> at 0
Nov 11 12:04:03 somesite kernel: [    0.200984] ACPI: Interpreter disabled.
Nov 11 12:04:03 somesite kernel: [    0.200984] vgaarb: loaded
Nov 11 12:04:03 somesite kernel: [    0.204072] suspend: event channel 27
Nov 11 12:04:03 somesite kernel: [    0.204083] xen_mem: Initialising balloon driver.
Nov 11 12:04:03 somesite kernel: [    0.217594] Unable to read sysrq code in control/sysrq
Nov 11 12:04:03 somesite kernel: [    0.232277] SCSI subsystem initialized
Nov 11 12:04:03 somesite kernel: [    0.232335] libata version 3.00 loaded.
Nov 11 12:04:03 somesite kernel: [    0.232335] PCI: System does not support PCI
Nov 11 12:04:03 somesite kernel: [    0.232335] PCI: System does not support PCI
Nov 11 12:04:03 somesite kernel: [    0.232335] NetLabel: Initializing
Nov 11 12:04:03 somesite kernel: [    0.232335] NetLabel:  domain hash size = 128
Nov 11 12:04:03 somesite kernel: [    0.232335] NetLabel:  protocols = UNLABELED CIPSOv4
Nov 11 12:04:03 somesite kernel: [    0.232335] NetLabel:  unlabeled traffic allowed by default
Nov 11 12:04:03 somesite kernel: [    0.232335] Switching to clocksource xen
Nov 11 12:04:03 somesite kernel: [    0.232398] Switched to NOHz mode on CPU #7
Nov 11 12:04:03 somesite kernel: [    0.233277] Switched to NOHz mode on CPU #1
Nov 11 12:04:03 somesite kernel: [    0.234090] Switched to NOHz mode on CPU #2
Nov 11 12:04:03 somesite kernel: [    0.234654] Switched to NOHz mode on CPU #3
Nov 11 12:04:03 somesite kernel: [    0.235090] Switched to NOHz mode on CPU #4
Nov 11 12:04:03 somesite kernel: [    0.235369] Switched to NOHz mode on CPU #5
Nov 11 12:04:03 somesite kernel: [    0.235401] Switched to NOHz mode on CPU #0
Nov 11 12:04:03 somesite kernel: [    0.235943] Switched to NOHz mode on CPU #6
Nov 11 12:04:03 somesite kernel: [    0.238353] AppArmor: AppArmor Filesystem Enabled
Nov 11 12:04:03 somesite kernel: [    0.238418] pnp: PnP ACPI: disabled
Nov 11 12:04:03 somesite kernel: [    0.246361] PCI: max bus depth: 0 pci_try_num: 1
Nov 11 12:04:03 somesite kernel: [    0.246663] NET: Registered protocol family 2
Nov 11 12:04:03 somesite kernel: [    0.246891] IP route cache hash table entries: 32768 (order: 6, 262144 bytes)
Nov 11 12:04:03 somesite kernel: [    0.247338] TCP established hash table entries: 131072 (order: 9, 2097152 bytes)
Nov 11 12:04:03 somesite kernel: [    0.247738] TCP bind hash table entries: 65536 (order: 8, 1048576 bytes)
Nov 11 12:04:03 somesite kernel: [    0.247926] TCP: Hash tables configured (established 131072 bind 65536)
Nov 11 12:04:03 somesite kernel: [    0.247931] TCP reno registered
Nov 11 12:04:03 somesite kernel: [    0.247934] UDP hash table entries: 512 (order: 3, 32768 bytes)
Nov 11 12:04:03 somesite kernel: [    0.247942] UDP-Lite hash table entries: 512 (order: 3, 32768 bytes)
Nov 11 12:04:03 somesite kernel: [    0.248196] NET: Registered protocol family 1
Nov 11 12:04:03 somesite kernel: [    0.248207] PCI: CLS 32 bytes
Nov 11 12:04:03 somesite kernel: [    0.248267] Unpacking initramfs...
Nov 11 12:04:03 somesite kernel: [    0.283308] Freeing initrd memory: 35460k freed
Nov 11 12:04:03 somesite kernel: [    0.297107] audit: initializing netlink socket (disabled)
Nov 11 12:04:03 somesite kernel: [    0.297137] type=2000 audit(1384157014.296:1): initialized
Nov 11 12:04:03 somesite kernel: [    0.351450] VFS: Disk quotas dquot_6.5.2
Nov 11 12:04:03 somesite kernel: [    0.351555] Dquot-cache hash table entries: 512 (order 0, 4096 bytes)
Nov 11 12:04:03 somesite kernel: [    0.352743] msgmni has been set to 2117
Nov 11 12:04:03 somesite kernel: [    0.353559] Block layer SCSI generic (bsg) driver version 0.4 loaded (major 253)
Nov 11 12:04:03 somesite kernel: [    0.353667] io scheduler noop registered
Nov 11 12:04:03 somesite kernel: [    0.353672] io scheduler deadline registered
Nov 11 12:04:03 somesite kernel: [    0.353769] io scheduler cfq registered (default)
Nov 11 12:04:03 somesite kernel: [    0.354380] Non-volatile memory driver v1.3
Nov 11 12:04:03 somesite kernel: [    0.354387] Linux agpgart interface v0.103
Nov 11 12:04:03 somesite kernel: [    0.354605] Xen virtual console successfully installed as xvc0
Nov 11 12:04:03 somesite kernel: [    0.354819] Fixed MDIO Bus: probed
Nov 11 12:04:03 somesite kernel: [    0.354857] i8042: PNP: No PS/2 controller found. Probing ports directly.
Nov 11 12:04:03 somesite kernel: [    0.355703] i8042: No controller found
Nov 11 12:04:03 somesite kernel: [    0.355857] mousedev: PS/2 mouse device common for all mice
Nov 11 12:04:03 somesite kernel: [    0.356003] EFI Variables Facility v0.08 2004-May-17
Nov 11 12:04:03 somesite kernel: [    0.356428] TCP cubic registered
Nov 11 12:04:03 somesite kernel: [    0.356745] NET: Registered protocol family 10
Nov 11 12:04:03 somesite kernel: [    0.357624] Registering the dns_resolver key type
Nov 11 12:04:03 somesite kernel: [    0.357660] libceph: loaded (mon/osd proto 15/24, osdmap 5/6 5/6)
Nov 11 12:04:03 somesite kernel: [    0.357903] registered taskstats version 1
Nov 11 12:04:03 somesite kernel: [    0.357962]   Magic number: 1:252:3141
Nov 11 12:04:03 somesite kernel: [    0.357988] XENBUS: Device with no driver: device/vbd/51712
Nov 11 12:04:03 somesite kernel: [    0.357991] XENBUS: Device with no driver: device/vif/0
Nov 11 12:04:03 somesite kernel: [    0.357998] drivers/rtc/hctosys.c: unable to open rtc device (rtc0)
Nov 11 12:04:03 somesite kernel: [    0.358381] Freeing unused kernel memory: 420k freed
Nov 11 12:04:03 somesite kernel: [    0.358685] Write protecting the kernel read-only data: 8820k
Nov 11 12:04:03 somesite kernel: [    0.439966] netfront: Initialising virtual ethernet driver.
Nov 11 12:04:03 somesite kernel: [    0.463686] xen-vbd: registered block device major 202
Nov 11 12:04:03 somesite kernel: [    0.463751] blkfront: xvda: barrier: enabled
Nov 11 12:04:03 somesite kernel: [    0.465705]  xvda: xvda1 xvda2
Nov 11 12:04:03 somesite kernel: [    1.309770] RPC: Registered named UNIX socket transport module.
Nov 11 12:04:03 somesite kernel: [    1.309783] RPC: Registered udp transport module.
Nov 11 12:04:03 somesite kernel: [    1.309788] RPC: Registered tcp transport module.
Nov 11 12:04:03 somesite kernel: [    1.309793] RPC: Registered tcp NFSv4.1 backchannel transport module.
Nov 11 12:04:03 somesite kernel: [    1.318194] FS-Cache: Loaded
Nov 11 12:04:03 somesite kernel: [    1.336091] device-mapper: uevent: version 1.0.3
Nov 11 12:04:03 somesite kernel: [    1.336476] device-mapper: ioctl: 4.21.0-ioctl (2011-07-06) initialised: dm-devel@redhat.com
Nov 11 12:04:03 somesite kernel: [    2.336157] EXT3-fs (dm-0): recovery required on readonly filesystem
Nov 11 12:04:03 somesite kernel: [    2.336169] EXT3-fs (dm-0): write access will be enabled during recovery
Nov 11 12:04:03 somesite kernel: [   15.507662] kjournald starting.  Commit interval 5 seconds
Nov 11 12:04:03 somesite kernel: [   15.507740] EXT3-fs (dm-0): orphan cleanup on readonly fs
Nov 11 12:04:03 somesite kernel: [   15.507759] ext3_orphan_cleanup: deleting unreferenced inode 4235266
Nov 11 12:04:03 somesite kernel: [   15.507815] ext3_orphan_cleanup: deleting unreferenced inode 4235271
Nov 11 12:04:03 somesite kernel: [   15.507825] ext3_orphan_cleanup: deleting unreferenced inode 4235270
Nov 11 12:04:03 somesite kernel: [   15.507847] ext3_orphan_cleanup: deleting unreferenced inode 4235269
Nov 11 12:04:03 somesite kernel: [   15.507855] ext3_orphan_cleanup: deleting unreferenced inode 4235268
Nov 11 12:04:03 somesite kernel: [   15.507863] ext3_orphan_cleanup: deleting unreferenced inode 4235267
Nov 11 12:04:03 somesite kernel: [   15.507872] EXT3-fs (dm-0): 6 orphan inodes deleted
Nov 11 12:04:03 somesite kernel: [   15.507877] EXT3-fs (dm-0): recovery complete
Nov 11 12:04:03 somesite kernel: [   15.511957] EXT3-fs (dm-0): mounted filesystem with ordered data mode
Nov 11 12:04:03 somesite kernel: [   24.339013] EXT3-fs (dm-0): using internal journal
Nov 11 12:04:03 somesite kernel: [   24.629836] loop: module loaded
Nov 11 12:04:03 somesite kernel: [   25.385829] Adding 1998844k swap on /dev/mapper/gauikt_system-swap.  Priority:-1 extents:1 across:1998844k
Nov 11 12:04:03 somesite kernel: [   27.880393] EXT4-fs (xvda1): mounting ext2 file system using the ext4 subsystem
Nov 11 12:04:03 somesite kernel: [   27.884330] EXT4-fs (xvda1): mounted filesystem without journal. Opts: (null)
Nov 11 12:04:03 somesite kernel: [   29.747772] ip_tables: (C) 2000-2006 Netfilter Core Team
Nov 11 12:04:03 somesite kernel: [   29.789848] nf_conntrack version 0.5.0 (16384 buckets, 65536 max)
Nov 11 12:04:06 somesite /usr/sbin/cron[2257]: (CRON) INFO (pidfile fd = 3)
Nov 11 12:04:06 somesite /usr/sbin/cron[2280]: (CRON) STARTUP (fork ok)
Nov 11 12:04:06 somesite /usr/sbin/cron[2280]: (CRON) INFO (Running @reboot jobs)
Nov 11 12:04:13 somesite kernel: [   39.996074] eth0: no IPv6 routers present
Nov 11 12:04:19 somesite /etc/mysql/debian-start[3070]: Upgrading MySQL tables if necessary.
Nov 11 12:04:20 somesite /etc/mysql/debian-start[3079]: /usr/bin/mysql_upgrade: the '--basedir' option is always ignored
Nov 11 12:04:20 somesite /etc/mysql/debian-start[3079]: Looking for 'mysql' as: /usr/bin/mysql
Nov 11 12:04:20 somesite /etc/mysql/debian-start[3079]: Looking for 'mysqlcheck' as: /usr/bin/mysqlcheck
Nov 11 12:04:20 somesite /etc/mysql/debian-start[3079]: This installation of MySQL is already upgraded to 5.5.31, use --force if you still need to run mysql_upgrade
Nov 11 12:04:20 somesite /etc/mysql/debian-start[3153]: Checking for insecure root accounts.
Nov 11 12:04:20 somesite /etc/mysql/debian-start[3158]: Triggering myisam-recover for all MyISAM tables
Nov 11 12:04:20 somesite postfix/master[3196]: daemon started -- version 2.9.6, configuration /etc/postfix
Nov 11 12:05:01 somesite /USR/SBIN/CRON[3300]: (somesite_ru) CMD (rm /home/somesite_ru/html/mainpage.html)
Nov 11 12:05:01 somesite /USR/SBIN/CRON[3301]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Nov 11 12:07:54 somesite kernel: [  260.772146] Built 1 zonelists in Zone order, mobility grouping on.  Total pages: 246541
Nov 11 12:09:02 somesite /USR/SBIN/CRON[3637]: (root) CMD (  [ -x /usr/lib/php5/maxlifetime ] && [ -d /var/lib/php5 ] && find /var/lib/php5/ -depth -mindepth 1 -maxdepth 1 -type f -ignore_readdir_race -cmin +$(/usr/lib/php5/maxlifetime) ! -execdir fuser -s {} 2>/dev/null \; -delete)
Nov 11 12:10:01 somesite /USR/SBIN/CRON[4647]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Nov 11 12:10:01 somesite /USR/SBIN/CRON[4648]: (somesite_ru) CMD (rm /home/somesite_ru/html/mainpage.html)
Nov 11 12:15:01 somesite /USR/SBIN/CRON[5014]: (somesite_ru) CMD (rm /home/somesite_ru/html/mainpage.html)
Nov 11 12:15:01 somesite /USR/SBIN/CRON[5013]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Nov 11 12:20:01 somesite /USR/SBIN/CRON[5380]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Nov 11 12:20:01 somesite /USR/SBIN/CRON[5381]: (smmsp) CMD (test -x /etc/init.d/sendmail && /usr/share/sendmail/sendmail cron-msp)
Nov 11 12:20:01 somesite /USR/SBIN/CRON[5382]: (somesite_ru) CMD (rm /home/somesite_ru/html/mainpage.html)
Nov 11 12:20:02 somesite postfix/pickup[3221]: D3B7D5D20A8: uid=104 from=<smmsp>
Nov 11 12:20:02 somesite postfix/cleanup[5404]: D3B7D5D20A8: message-id=<20131111082001.D3B7D5D20A8@somesite.ru>

Общая картина загрузки процессора: http://s5.hostingkartinok.com/uploads/images/2013/11/2f6e4a754905fe17472a920d...

Загрузка процессора на момент пика: http://s6.hostingkartinok.com/uploads/images/2013/11/1ad9c9b098fc5ec91968a079...

И ещё некий странный пик, длящийся 2 минуты с периодичностью в примерно 25 минут. http://s5.hostingkartinok.com/uploads/images/2013/11/2e3f0284055617ef1530ffc3...

На первом логе падение произошло в 23:09, второй раз в 11:51. В остальных логах в этот период никаких сообщений нет, всё стабильно. В периоды лежания дисковая активость - 0, сетевая - тоже 0, машина ни на что не реагирует. ЧЯДНТ? В какие ещё логи можно смотреть?



Последнее исправление: cetjs2 (всего исправлений: 2)

Ну дык где логи с консоли с стрек-трейсами ? Те, что ты показал совсем не интересны.

vel ★★★★★
()
Ответ на: комментарий от vel

первый раз я ступил, не снял, второй раз - коллега, нет этих логов. Помню, что там было stack trace: <n 16-тиричных чисел> и всё. Не могу повторить ситуацию.

tariel-x
() автор топика
Ответ на: комментарий от tariel-x

Спроси в саппорте, есть вероятность что они уже с таким сталкивались.

Если сбои частые то я бы попробовал поднять объём памяти.

true_admin ★★★★★
()
Ответ на: комментарий от true_admin

Они меня вежливо отправили самому искать проблему, у них такого не втречалось. Хотя мне почему-то очень хочется грешить на ядро, ведь оно не родное, а селектеловское специально обученное для работы в режиме облака.

tariel-x
() автор топика

3.1.0-1.2-xen

подозрительное ядрышко для дебиана

vxzvxz ★★★
()

А ты не пробовал подобные простыни на пастебин заливать?

leave ★★★★★
()
Ответ на: комментарий от technoid

Поставить другое нельзя. Я уже пытался в этом убедить саппорт селектела. Они ядра практически не обновляют.

true_admin ★★★★★
()

Параметры запуска ядра: CPUFREQ=no console=xvc0 panic=15 barrier=off

tariel-x
() автор топика
Ответ на: комментарий от crutch_master

Нет, не отходит. В нормальное состояние не возвращается никак. Выше отправил скриншот терминала в этот момент.

tariel-x
() автор топика
Ответ на: комментарий от tariel-x

Очень похоже на ООМ.

Чтоб не оставаться в таком состоянии можно указать

echo 1 >/proc/sys/kernel/panic_on_oops
echo 1 >/proc/sys/vm/panic_on_oom

Но, уж больно смущает версия ядра. 3.1.x - это промежуточная ветка, которая уже давно закрыта.

vel ★★★★★
()
Ответ на: комментарий от vel

И ещё вспомнил, сервер полтора месяца был как часы, но за неделю до первого такого падения было поднято ограничение по памяти и по нагрузке для облачной машины. Изменение косвенно касается, но хз.

tariel-x
() автор топика
Ответ на: комментарий от vel

а как эти директивы будут взаимодействовать с kdump, если его поставить?

если опять упадёт, попробую ядро обновить до 3.7

tariel-x
() автор топика
Ответ на: комментарий от tariel-x

не могу сказать, я всегда пользовался ramoops.

обновляться нужно или радикально (сейчас это 3.11) или осторожно до 3.4

После 3.4 ОЧЕНЬ много изменений.

vel ★★★★★
()
Последнее исправление: vel (всего исправлений: 1)
Ответ на: комментарий от vel

Перевод ядра в этот режим привёл к постоянному росту процессов и периодическому kernel panic с перезагрузкой. Может быть это является причиной того, что происходит и, хоть память выделяется динамически, у селектела описана некая такая проблема: http://habrahabr.ru/company/selectel/blog/99157/

Ещё одной потенциальной проблемой могут быть приложения, стратегия которых >состоит в использовании всего доступного объёма памяти. В этой ситуации >включается дурная рекурсия:

Программа видит, что свободно 32Мб
Программа запрашивает у ОС 30 Мб
MOD-агент сообщает серверу, что у ОС осталось свободно 2Мб памяти
MOD-сервер накидывает гостевой ОС ещё 64Мб памяти
Программа видит, что свободно ещё 66 Мб памяти
Программа запрашивает у ОС ещё 64Мб памяти


Эта рекурсия закончится в тот момент, когда MOD-сервер не сможет увеличить >объём памяти (из-за верхнего лимита).

tariel-x
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.