OOM killer вызван при достаточном объеме swap

0

1

Есть сервер c 16gb RAM. На нем установлен memcached с опциями:

# pgrep -f -l memcached
14293 memcached -d -p 11211 -u memcached -m 14336 -c 32768 -P /var/run/memcached/memcached.pid -t 8 -l 0.0.0.0

Он был убит OOM killer при 1.4% swap usage. См. полное ядра сообщение ниже.

Поиск в Google показывает что такие ситуации возможны. К примеру:

http://bl0rg.krunch.be/oom-frag.html
http://linux-mm.org/OOM -> The kernel is not using its swap space properly.

Впрочем после чтения не совсем понятно что вызвало OOM в конкретном случае. Вроде бы исходя из:

Pid: 14735, comm: memcached Not tainted 2.6.32-504.8.1.el6.centos.plus.x86_64 #1
Killed process 14731, UID 496, (memcached) total-vm:16485432kB, anon-rss:15755904kB, file-rss:264kB

Можно предположить что, так как memcached запущен с "-t 8", запрос был сделан одной из child threads процесса memcached(14731). Так же gfp_mask = 0xd0 = __GFP_FS | __GFP_IO | __GFP_WAIT

Вопрос что делать чтобы такого не происходило в будущем:

sys.vm.oom_kill_allocating_task=1 не подходит, так как allocating_task = «Pid: 14735, comm: memcached»
echo -1000 > /proc/`pidof memcached`/oom_score_adj не подходит по той же причине
Можно увеличить RAM или уменьшить размер памяти memcached (-m флаг). Но не ясно насколько нужно увеличивать RAM чтобы исключить такие ситуации в будующем.
Запускать memcached с "-L" флагом и установить sys.vm.oom_kill_allocating_task=1. Вроде бы как подходит так как -L «preallocate all memory up front». А sys.vm.oom_kill_allocating_task=1 в случае чего прибьет процесс запрашивающий пямять, а не memcached.

memcached invoked oom-killer: gfp_mask=0xd0, order=0, oom_adj=0, oom_score_adj=0
memcached cpuset=/ mems_allowed=0
Pid: 14735, comm: memcached Not tainted 2.6.32-504.8.1.el6.centos.plus.x86_64 #1
Call Trace:
 [<ffffffff810d4141>] ? cpuset_print_task_mems_allowed+0x91/0xb0
 [<ffffffff81127380>] ? dump_header+0x90/0x1b0
 [<ffffffff8122f37c>] ? security_real_capable_noaudit+0x3c/0x70
 [<ffffffff81127802>] ? oom_kill_process+0x82/0x2a0
 [<ffffffff81127741>] ? select_bad_process+0xe1/0x120
 [<ffffffff81127c40>] ? out_of_memory+0x220/0x3c0
 [<ffffffff81531d19>] ? _cond_resched+0x19/0x40
 [<ffffffff8113454f>] ? __alloc_pages_nodemask+0x89f/0x8d0
 [<ffffffff8116cc7a>] ? alloc_pages_current+0xaa/0x110
 [<ffffffff814acac7>] ? tcp_sendmsg+0x677/0xa20
 [<ffffffff8144fc13>] ? sock_sendmsg+0x123/0x150
 [<ffffffff8109eb00>] ? autoremove_wake_function+0x0/0x40
 [<ffffffff8100988e>] ? __switch_to+0x26e/0x320
 [<ffffffff814d057a>] ? inet_recvmsg+0x5a/0x90
 [<ffffffff8144fa64>] ? move_addr_to_kernel+0x64/0x70
 [<ffffffff81451406>] ? __sys_sendmsg+0x406/0x420
 [<ffffffff81451629>] ? sys_sendmsg+0x49/0x90
 [<ffffffff8100b072>] ? system_call_fastpath+0x16/0x1b
Mem-Info:
Node 0 DMA per-cpu:
CPU    0: hi:    0, btch:   1 usd:   0
CPU    1: hi:    0, btch:   1 usd:   0
CPU    2: hi:    0, btch:   1 usd:   0
CPU    3: hi:    0, btch:   1 usd:   0
CPU    4: hi:    0, btch:   1 usd:   0
CPU    5: hi:    0, btch:   1 usd:   0
CPU    6: hi:    0, btch:   1 usd:   0
CPU    7: hi:    0, btch:   1 usd:   0
Node 0 DMA32 per-cpu:
CPU    0: hi:  186, btch:  31 usd:  52
CPU    1: hi:  186, btch:  31 usd: 161
CPU    2: hi:  186, btch:  31 usd:  31
CPU    3: hi:  186, btch:  31 usd:   0
CPU    4: hi:  186, btch:  31 usd:  34
CPU    5: hi:  186, btch:  31 usd: 190
CPU    6: hi:  186, btch:  31 usd: 121
CPU    7: hi:  186, btch:  31 usd:  24
Node 0 Normal per-cpu:
CPU    0: hi:  186, btch:  31 usd: 163
CPU    1: hi:  186, btch:  31 usd:  50
CPU    2: hi:  186, btch:  31 usd:  61
CPU    3: hi:  186, btch:  31 usd:  35
CPU    4: hi:  186, btch:  31 usd:  41
CPU    5: hi:  186, btch:  31 usd: 103
CPU    6: hi:  186, btch:  31 usd: 159
CPU    7: hi:  186, btch:  31 usd: 131
active_anon:3504693 inactive_anon:496245 isolated_anon:0
 active_file:9239 inactive_file:9322 isolated_file:0
 unevictable:0 dirty:9508 writeback:2210 unstable:0
 free:33760 slab_reclaimable:5394 slab_unreclaimable:11120
 mapped:1713 shmem:0 pagetables:8675 bounce:0
Node 0 DMA free:15688kB min:60kB low:72kB high:88kB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:15304kB mlocked:0kB dirty:0kB writeback:0kB mapped:0kB shmem:0kB slab_reclaimable:0kB slab_unreclaimable:0kB kernel_stack:0kB pagetables:0kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:0 all_unreclaimable? yes
lowmem_reserve[]: 0 3246 16124 16124
Node 0 DMA32 free:64760kB min:13592kB low:16988kB high:20388kB active_anon:2344960kB inactive_anon:653348kB active_file:0kB inactive_file:0kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:3324612kB mlocked:0kB dirty:0kB writeback:0kB mapped:0kB shmem:0kB slab_reclaimable:60kB slab_unreclaimable:0kB kernel_stack:0kB pagetables:0kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:255 all_unreclaimable? no
lowmem_reserve[]: 0 0 12877 12877
Node 0 Normal free:54592kB min:53924kB low:67404kB high:80884kB active_anon:11673812kB inactive_anon:1331632kB active_file:36956kB inactive_file:37288kB unevictable:0kB isolated(anon):0kB isolated(file):0kB present:13186560kB mlocked:0kB dirty:38032kB writeback:8840kB mapped:6852kB shmem:0kB slab_reclaimable:21516kB slab_unreclaimable:44480kB kernel_stack:1592kB pagetables:34700kB unstable:0kB bounce:0kB writeback_tmp:0kB pages_scanned:2112 all_unreclaimable? no
lowmem_reserve[]: 0 0 0 0
Node 0 DMA: 2*4kB 2*8kB 1*16kB 1*32kB 2*64kB 1*128kB 0*256kB 0*512kB 1*1024kB 1*2048kB 3*4096kB = 15688kB
Node 0 DMA32: 46*4kB 30*8kB 21*16kB 6*32kB 11*64kB 5*128kB 6*256kB 9*512kB 7*1024kB 18*2048kB 3*4096kB = 64760kB
Node 0 Normal: 2000*4kB 1303*8kB 963*16kB 320*32kB 133*64kB 12*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 54120kB
24388 total pagecache pages
5460 pages in swap cache
Swap cache stats: add 361658, delete 356198, find 541068/558694
Free swap  = 10144088kB
Total swap = 10289148kB
4194303 pages RAM
81248 pages reserved
20592 pages shared
4054912 pages non-shared
[ pid ]   uid  tgid total_vm      rss cpu oom_adj oom_score_adj name
[  485]     0   485     2762        1   0     -17         -1000 udevd
[ 1110]     0  1110    23298       81   1     -17         -1000 auditd
[ 1126]     0  1126    62465     1229   4       0             0 rsyslogd
[ 1144]    32  1144     4744       53   2       0             0 rpcbind
[ 1376]     0  1376     1016        2   6       0             0 mingetty
[ 1378]     0  1378     1016        2   2       0             0 mingetty
[ 1380]     0  1380     1016        2   7       0             0 mingetty
[ 1382]     0  1382     1016        2   1       0             0 mingetty
[ 1385]     0  1385     2739        1   2     -17         -1000 udevd
[ 1386]     0  1386     1016        2   1       0             0 mingetty
[ 1387]     0  1387     2739        1   4     -17         -1000 udevd
[ 1389]     0  1389     1016        2   7       0             0 mingetty
[ 1390]     0  1390     1019        2   4       0             0 agetty
[14731]   496 14731  4121358  3939042   4       0             0 memcached
[32141]    29 32141     5837      112   0       0             0 rpc.statd
[32176]     0 32176    29302      204   5       0             0 crond
[32460]    38 32460     7684      215   4       0             0 ntpd
[17184]     0 17184    19762      247   0       0             0 master
[17187]    89 17187    19824      263   1       0             0 qmgr
[ 5230]     0  5230    16103      207   4     -17         -1000 sshd
[22617]     0 22617    49559     1313   0       0             0 snmpd
[ 5541]     0  5541    35441     9985   7       0             0 ruby
[12037]   497 12037    10325      166   5       0             0 nrpe
[ 8734]     0  8734    48576     2908   1       0             0 denyhosts.py
[10332]    89 10332    19782      374   4       0             0 pickup
[10534]     0 10534    35023      303   6       0             0 crond
[10535]     0 10535    26514      144   6       0             0 sh
[10536]     0 10536    58744    32371   7       0             0 puppet
[10871]     0 10871    64183    13033   0       0             0 yum
Out of memory: Kill process 14731 (memcached) score 595 or sacrifice child
Killed process 14731, UID 496, (memcached) total-vm:16485432kB, anon-rss:15755904kB, file-rss:264kB

Ссылка

←	Посоветуйте, как максимально эффективно задействовать всю оперативную память

Затирание /etc/resolv.conf при перезагрузке

→

Если мне не изменяет память - OOM Killer приходит не при переполнении свопа, а при заполнении RAM

крути swappiness

r0ck3r ★★★★★
(01.09.15 21:09:13 MSK)

Ответ на: комментарий от r0ck3r 01.09.15 21:09:13 MSK

Если мне не изменяет память - OOM Killer приходит не при переполнении свопа, а при заполнении RAM крути swappiness

Крутить swappiness как я понимаю имел бы смысл если система не успевает скидывать страницы на диск из-за медленного disk I/O.

В данном случае никакого disk I/O не было. memcached был запущен несколько месяцев назад и использование памяти оставалось стабильным на протяжение месяцов. Т.е. запрос на небольшое увеличение памяти вызвал OOM. Т.е. swappiness не имеет особого смысла.

http://linux-mm.org/OOM упоминает сходную ситуацию:

It is also possible for the system to find itself in a sort of deadlock. Writing data out to disk may, itself, require allocating memory for various I/O data structures. If the system cannot find even that memory, the very functions used to create free memory will be hamstrung and the system will likely run out of memory.

и предлагают увеличивать vm.min_free_kbytes.

Впрочем не понятно насколько vm.min_free_kbytes нужно увеличить vm.min_free_kbytes. Сейчас стоит 67584. Соответственно возникает вопрос. Исходя из вывода OOM killer можно ли установить на сколько увеличить vm.min_free_kbytes? Или увеличивать эмпрически и ждать покуда OOM killer убьет memcached снова.

tungus ★
(02.09.15 00:13:38 MSK) автор топика

Ссылка

Поиск в Google показывает что такие ситуации возможны.

Скорее всего происходит то, что описано по первой ссылке. Какой-то из процессов в процессе работы безбожно фрагментирует память (не обязательно memcached), размер максимально доступного непрерывного куска уменьшается, пока кто-то не попросит больший, чем есть в наличии (и опять это не обязательно сам memcached, а, скажем, вызов ядра, который он дёрнул) кусочек, а меры по выгрузке страниц не приводят к его немедленному появлению.
Общий объём свободной памяти на этот момент роли не играет: в наличии может быть сотня мегабайт кусочков по 4k, и ни одного на 256k.

Тюнинг OOM тут ничем не поможет: это уже следствие. Тюнинг свободной памяти тоже: будет просто больше свободных мелких кусочков.
Не исключаю, что высокий swappiness оттянет неминуемое.

Пора апгрейдиться до 64Гб, короче :)

aidaho ★★★★★
(02.09.15 09:50:30 MSK)

memcached избегает использовать swap. Попробуй запускать memcached с '-k'.
Также по хорошему memcached не должен брать под себя больше 75% реальной памяти. Хотя тут от количество памяти конечно зависит, и других процессов, но не нужно забывать что лучше чтобы ничто в swap не уходило лишний раз.

anonymous_sama ★★★★★
(02.09.15 10:06:17 MSK)
Последнее исправление: anonymous_sama 02.09.15 10:09:56 MSK (всего исправлений: 1)

Ответ на: комментарий от aidaho 02.09.15 09:50:30 MSK

Скорее всего происходит то, что описано по первой ссылке. Какой-то из процессов в процессе работы безбожно фрагментирует память (не обязательно memcached), размер максимально доступного непрерывного куска уменьшается, пока кто-то не попросит больший, чем есть в наличии (и опять это не обязательно сам memcached, а, скажем, вызов ядра, который он дёрнул) кусочек, а меры по выгрузке страниц не приводят к его немедленному появлению.

В таком случае как я понимаю достаточно запускать memcached с "-L" и установить sys.vm.oom_kill_allocating_task=1 как предположено выше.

"-L" - preallocate all memory up front. Так что memcached не будет делать аллокаций в процессе работы.
sys.vm.oom_kill_allocating_task=1 - в случае чего прибет процесс запрашивающий память, а не memcached
Так же возможно стоить увеличить vm.min_free_kbytes чтобы процессы быстрее уходили в swap

tungus ★
(02.09.15 20:51:08 MSK) автор топика

Ответ на: комментарий от anonymous_sama 02.09.15 10:06:17 MSK

memcached избегает использовать swap. Попробуй запускать memcached с '-k'.

Я так понимаю это не поможет. Memcached был прибит потому что закончилась RAM. Так что использование -k флага только увеличивает вероятность повторения ситуации.

Также по хорошему memcached не должен брать под себя больше 75% реальной памяти. Хотя тут от количество памяти конечно зависит, и других процессов, но не нужно забывать что лучше чтобы ничто в swap не уходило лишний раз.

Возможно. Но на данной системе есть 16Gb RAM, 10Gb swap. Memcached запущен с -m 14G. Т.е. в принципе для системы есть 2Gb RAM + 10Gb swap. Никаких существенных процессов на данном сервере не крутится.

Наверное второй процесс по потреблению памяти это puppet, но

Он запускается периодически через cron. Так что всякие memory leaks не существенны.
Тот же puppet работает на других машинах c 512-1024MB RAM без особых проблем.

tungus ★
(02.09.15 21:00:51 MSK) автор топика

Ответ на: комментарий от tungus 02.09.15 20:51:08 MSK

"-L" - preallocate all memory up front.

Звучит хорошо. Месиво возникает, когда постоянно malloc()/free() дёргается.
По остальным пунктам я бы ничего не делал.

aidaho ★★★★★
(02.09.15 21:18:01 MSK)

Ссылка

Ответ на: комментарий от tungus 02.09.15 21:00:51 MSK

memcached не должен выходить за 14Gb для object storage, если ему недостаточно места, то он просто удалит что-то из кэша, но за эти 14Gb не выйдет и c "-k" такое поведение будет происходить более стабильно. "-m" указывает количество памяти под object storage, реально потребление памяти будет немного больше, что в твоем случае и наблюдается, поэтому и приходит oom-killer.

anonymous_sama ★★★★★
(03.09.15 10:32:36 MSK)
Последнее исправление: anonymous_sama 03.09.15 10:33:21 MSK (всего исправлений: 2)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Посоветуйте, как максимально эффективно задействовать всю оперативную память

General

Затирание /etc/resolv.conf при перезагрузке

→

Похожие темы