Фрагментация/дефрагментация кучи?

1

6

Будет много букв, но проблема довольно сложная и странная.

Есть некоторый замороченный код (числодробилка), работающий на кластере под MPI. В процессе работы в рамках одной итерации накапливается информация (в виде маленьких структурок по 32 байта каждая, будем называть их треками), затем информация перелопачивается нетривиальным образом и все по новой. При этом ключевым ресурсом является доступная память.

Заранее число треков неизвестно, хотя можно строить какие то оценки. Сейчас накопление происходит в контейнеры устроенные как односвязный список блоков, каждый блок по 32К. Когда очередной блок полностью заполнен, при помощи new выделяется новый блок и т.д. Таких списков в рамках одного процесса много, и они заполняются параллельно.

При обработке информации последовательно берется очередной список, треки из него перепаковываются/переупорядочиваются, некоторые выбрасываются, результаты пишутся в обычный вектор который потом будет дальше обработан. Важно что при этом память, выделенная под список, должна быть освобождена - иначе потом ничего не влезет. Общий размер занятой под треки памяти порядка 500-1000М, таких процессов на одном узле пасется несколько (по числу ядер), и кроме этих данных они оперируют еще всяким разным. Поскольку никакой виртуальной памяти (свопа) нет, когда память заканчивается задача крэшится (все 1000 процессов), поэтому прежде чем переходить к очередному этапу процесс сморит сколько в систем свободной памяти вообще, и ждет пока освободится нужное кол-во.

Есть три вопроса:

1) Поскольку блоки уничтожаются в каком то непонятном порядке (не в том, котором выделялись), куча оказывается фрагментированной. При этом наблюдается некий значительный лаг по времени между вызовом delete и тем моментом когда освобожденная память становится в системе видна как свободная. Может ли этот лаг быть связан с фрагментацией?

2) На одном из доступных кластеров вообще наблюдается утечка памяти, т.е. память в систему не возвращается. Отличается кластер от остальных древним и странным компайлером - там связка icpc17 и gcc4.2 (нет, я не могу на том кластере выбрать что то более свежее). Может ли утечка быть связана с фрагментацией?

3) Вообще насколько такая фрагментация плоха, и если плоха то как с ней бороться? Сейчас я переработал стратегию освобождения памяти, теперь блоки сортируются по адресам и уничтожаются из этого списка с конца (при этом при необходимости данные переносятся в другой блок). Результатов тестирования этого варианта пока не знаю. Альтернативой насколько я понимаю является ваяние своего менеджера, т.е. выделяем из кучи сразу много памяти и как то ее раздает всем страждущим?

Ссылка

← Hash для вектора double, int64

Почему на гифках нет перемотки? →

память в систему не возвращается

Кто сказал? Можно верить только valgrind, и то с опаской.

~~RazrFalcon~~ ★★★★★
(01.07.17 15:51:50 MSK)

Ссылка

google://arena allocation

anonymous
(01.07.17 15:52:28 MSK)

Ссылка

Firefox был вынужден бороться с этой проблемой, может быть тебе поможет изучить то, что они делали:

https://blog.mozilla.org/nnethercote/category/memory-allocation/ https://bugzilla.mozilla.org/show_bug.cgi?id=276342 https://bugzilla.mozilla.org/show_bug.cgi?id=666058#c31

На самом деле, насколько я понимаю это именно та ситуация когда ты пишешь свой аллокатор.

(ну или переходишь на managed язык).

Disclaimer: Я ни разу не специалист в этой области, просто пробую помочь чем могу. Я боюсь, если ты будешь решать эту проблему радикально, то ты в результате получишь что-то вроде Metaspace в Java 8: https://dzone.com/articles/java-8-permgen-metaspace

DiKeert ★★
(01.07.17 15:59:17 MSK)

man -P 'less -p THRESHOLD' mallopt

По умолчанию glibc использует mmap для блоков больше или равных 128 КиБ. С помощью mallopt это можно изменить, либо же можно начать выделять блоки по 128 КиБ. Если всё будет выделяться через mmap, то каждый delete должен сразу возвращать память системе без дополнительных ухищрений.

xaizek ★★★★★
(01.07.17 16:25:39 MSK)
Последнее исправление: xaizek 01.07.17 16:27:50 MSK (всего исправлений: 2)

При этом наблюдается некий значительный лаг по времени между вызовом delete и тем моментом когда освобожденная память становится в системе видна как свободная. Может ли этот лаг быть связан с фрагментацией?

Зачем ты вообще отдаешь память системе, если потом надо будет ее опять же у нее просить? Просто не освобождай.

3) Вообще насколько такая фрагментация плоха, и если плоха то как с ней бороться?

Так же, как и в любом сборщике мусора - дефрагментацией.

anonymous
(01.07.17 16:50:57 MSK)

Ссылка

Если такой интересный юзкейс, то тут стоит поискать аллокатор, который решает проблему (самому писать действительно годные аллокаторы довольно нетривиальная задача)

zamazan4ik ★★
(01.07.17 17:11:37 MSK)

Ссылка

Я бы для начала заменил самопальный список на std::deque и включил в проект нестандартный аллокатор памяти (например, tcmalloc https://github.com/gperftools/gperftools). Включил в проект значит включил исходники в репозиторий проекта (возможно, в виде git submodule) и собирал и линковал аллокатор вместе с проектом (статикой или динамикой с rpath). В этом случае будет наплевать на древность gcc и стандартного аллокатора на ноде (tcmalloc нужны лишь системные вызовы sbrk и mmap, которые есть в любом ядре).

Если эти манипуляции не помогут - продумал бы копирование перед очередной итерацией обработанных данных в отдельный участок памяти (выделенный через mmap), вызов передачи свободной памяти OS (MallocExtension::instance()->ReleaseFreeMemory();) и копирование данных обратно (с освобождением mmap'ed памяти).

anonymous
(01.07.17 17:30:25 MSK)

Ссылка

Поскольку никакой виртуальной памяти (свопа) нет, когда память заканчивается задача крэшится (все 1000 процессов)

Вот тут тонко. Нельзя путать виртуальную память и своп. Свопа может не быть, но при этом виртуальная память вполне себе может работать как виртуальная - посредством mmap(), которым в Линуксе выделяется как обычная память, так и разделяемая, так и память разделяемых объектов (динамических библиотек). То есть свопа нет, но всё, что mmap выделяет из файлов, работает как своп. Тут важна политика overcommit.

Вообще насколько такая фрагментация плоха, и если плоха то как с ней бороться?

Из написанного не очевидно, что есть какая-то фрагментация. Фрагментация приводит к потерям памяти. Они реально есть? Это как-то замеряется? Линукс сам неплохо борется с фрагментацией посредством страничной памяти. Каждая страница - 4 килобайта. Если внутри этих 4КБ блоков фрагментации нет, то можно считать, что её нет совсем.

asaw ★★★★★
(01.07.17 23:02:49 MSK)

может s/одно/дву/g, и по-факту удаления - сохранять связность списков.

etwrq ★★★★★
(01.07.17 23:02:53 MSK)

Ссылка

free он по умолчанию не возвращает память системе, он просто помечает ее как не занятую в куче и делает доступной для malloc.

Для того чтобы free возвращал память системы должно быть выполнено много всяких опций, можно почитать:

man mallopt
man malloc_trim

Если настройки кучи не помогают, и проблема исключительно в 32К блоках - можно сами эти блоки выделять не через кучу, а запрашивать прямо у системы через mmap (протокол: PROT_READ|PROT_WRITE, флаги: MAP_ANONYMOUS|MAP_PRIVATE, fd: -1) и освобождать через munmap тогда память будет возвращатся в систему сразу после вызова munmap.

zaz ★★★★
(01.07.17 23:46:22 MSK)

Хочешь, чтобы память связного списка лежала по последовательным адресам - пиши свой аллокатор. А так - меряй каким-нибудь профайлером, который выдаёт cache hit/miss статистику и смотри сам.

А malloc/free живут своей жизнью и как они отдают память системе - зависит от реализации.

~~dzidzitop~~ ★★
(02.07.17 00:51:44 MSK)

Ответ на: комментарий от dzidzitop 02.07.17 00:51:44 MSK

какой профайлер лучше всего показывает cache miss/hit на ваш взгляд? Я бы попробовал сам

zamazan4ik ★★
(02.07.17 00:52:45 MSK)

Ответ на: комментарий от zamazan4ik 02.07.17 00:52:45 MSK

Под линуксом только callgrind пользовал для вылизывания кода. Какие там есть ещё и под какие процессоры - не изучал. Для интелов дефолтный выбор должен быть VTune, но он вроде платный.

====

Точнее, cachegrind в данном случае подходит. Но это всё один и тот же valgrind, в любом случае.

~~dzidzitop~~ ★★
(02.07.17 00:56:29 MSK)
Последнее исправление: dzidzitop 02.07.17 00:58:21 MSK (всего исправлений: 1)

Ответ на: комментарий от dzidzitop 02.07.17 00:56:29 MSK

Хм, пользуюсь им и не знал, что он умеет в кэш миссы. Спасибо!

zamazan4ik ★★
(02.07.17 01:05:32 MSK)

Ответ на: комментарий от zamazan4ik 02.07.17 01:05:32 MSK

Единственное что - там эмулируется сферический процессор в вакууме. Для полу-алгоритмических оптимизаций примерно пофигу, но реальный камень может работать иначе в плане префетчей, предсказания ветвлений и прочей лабуды. Другие профайлеры (тот же VTune) используют хардварные performance counters живого процессора, на котором гоняется код.

~~dzidzitop~~ ★★
(02.07.17 01:10:46 MSK)

Ответ на: комментарий от dzidzitop 02.07.17 01:10:46 MSK

Эхх, вот это плохо, да. Можно ли хотя бы настраивать этот сферический процессор в ваккуме? То есть банально задать хотя бы размер кеша

zamazan4ik ★★
(02.07.17 01:12:07 MSK)

Ответ на: комментарий от zamazan4ik 02.07.17 01:12:07 MSK

http://valgrind.org/docs/manual/cl-manual.html

Какие-то, вроде, можно было. Но для случая проседания перформанса из-за дикой фрагментации памяти должно быть не сильно важно, если воркингсет значительно больше пары мегабайт кэша процессора.

--I1=<size>,<associativity>,<line size>

--D1=<size>,<associativity>,<line size>

--LL=<size>,<associativity>,<line size>

~~dzidzitop~~ ★★
(02.07.17 01:14:42 MSK)
Последнее исправление: dzidzitop 02.07.17 01:15:41 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от zamazan4ik 02.07.17 00:52:45 MSK

Есть вот такая штука https://github.com/david-grs/geiger на основе perf.

anonymous
(02.07.17 03:20:14 MSK)

Ссылка

Ответ на: комментарий от DiKeert 01.07.17 15:59:17 MSK

это именно та ситуация когда ты пишешь свой аллокатор

this

boo32 ★
(02.07.17 08:06:53 MSK)

Ссылка

Ну раз у тебя узкое место - выделение/освобождение, то переписи так, чтобы ничего не удалялось, повторно используйте выделенные структуры, если данные в них больше не нужны.

invy ★★★★★
(02.07.17 13:06:15 MSK)

Ответ на: комментарий от dzidzitop 02.07.17 00:51:44 MSK

Хочешь, чтобы память связного списка лежала по последовательным адресам

Используй вектор.

invy ★★★★★
(02.07.17 13:10:19 MSK)

Ссылка

Ответ на: комментарий от asaw 01.07.17 23:02:49 MSK

Фрагментация приводит к потерям памяти. Они реально есть? Это как-то замеряется?

Да, замеряется и есть (на старом компайлере). На новом есть большой временной лаг между delete и реальной доступностью памяти.

~~AntonI~~ ★★★★★
(02.07.17 17:51:31 MSK) автор топика

Ответ на: комментарий от AntonI 02.07.17 17:51:31 MSK

Если заменяется, то где данные измерений?

asaw ★★★★★
(02.07.17 17:55:46 MSK)

Ответ на: комментарий от invy 02.07.17 13:06:15 MSK

Не получится - для этого придется писать свой менеджер, чего делать совсем не хочется.

на следующем этапе память юзается блоками ну совсем другого размера (и все разные).

Насчет вектора - можно, только придется писать свой аллокатор. Со стандартным оверхет по памяти может быть до 100%, здесь это не канает.

~~AntonI~~ ★★★★★
(02.07.17 17:59:32 MSK) автор топика

Ответ на: комментарий от asaw 02.07.17 17:55:46 MSK

Ну эти замеры делал не лично я, поэтому под рукой у меня нету. Словами я симптоматику описал.

~~AntonI~~ ★★★★★
(02.07.17 18:00:24 MSK) автор топика

Ссылка

Ответ на: комментарий от AntonI 02.07.17 17:59:32 MSK

на следующем этапе память юзается блоками ну совсем другого размера (и все разные).

Этого недостаточно для того, чтобы утверждать, что тебе нужен именно аллокатор.

Ну и самое важно. Зачем задавать вопрос ставя одни условия, а потом уже выдвигать совершенно другие? Пацаны через либастрал это должны были узнать?

Со стандартным оверхет по памяти может быть до 100%, здесь это не канает.

Это каким образом?

~~saifuluk~~
(02.07.17 19:05:16 MSK)

Ответ на: комментарий от saifuluk 02.07.17 19:05:16 MSK

Зачем задавать вопрос ставя одни условия, а потом уже выдвигать совершенно другие?

А зачем пацаны пытаются отвечать на вопрос, который им не задавали? Вы Выше написали «хреновая архитектура» - судя по всему у Вас либастрал прокачан?

Это каким образом?

Если push_back-ов будет 2^N+1.

~~AntonI~~ ★★★★★
(02.07.17 19:31:06 MSK) автор топика

Ссылка

Ответ на: комментарий от asaw 01.07.17 23:02:49 MSK

Вот тут тонко. Нельзя путать виртуальную память и своп.

да (в смысле - тонко). Но в данном случае важно именно отсутствие swap-а. То есть, когда сумма 1) аллокированной памяти всех mpi-процессов, 2) буферов файлов и 3) mpi-обменов достигнет размера физической памяти --- система не сможет выделять больше ни байта. Проблемная ситуация: mpi-процессы аллокировали себе память вычислительного узла, попользовали, вызвали delete, но часть этой памяти системе не вернулась. В результате другой mpi-процесс того же узла не может ее аллокировать.

Фрагментация приводит к потерям памяти. Они реально есть? Это как-то замеряется?

да. Ведется статистика размера основных выделяемых структур данных. Также в ключевые моменты выводятся данные sysinfo. Из сравнения оценивается утечка. В том числе, это делалось и в режиме один mpi-поток на узел. При этом хорошо видно, что после удаления временных данных в конце этого этапа расчета --- часть памяти системе не возвращается. Причём количество количество «зависшей» памяти кардинальным образом зависит от параметров данной реализации расчета (и это, кстати говоря, воспроизводится).

Линукс сам неплохо борется с фрагментацией посредством страничной памяти. Каждая страница - 4 килобайта

немного сомнительный тезис. Если речь об аппаратных страницах виртуальной памяти и трансляции адресов VA<->PA, то там ещё есть 2MB и 1ГБ. Но тут проблема скорее всего программная (алгоритмы работы кучи, mmap и проч.) В этом смысле я написал маленький тест. На той системе память выделяется блоками по ~300КБ. Возможно, это настраивается. Если что, оптимальный размер блока проблемной структуры данных 32KБ.

VLev ★
(02.07.17 19:54:55 MSK)

Ответ на: комментарий от zaz 01.07.17 23:46:22 MSK

Спасибо. почитаю.

VLev ★
(02.07.17 20:04:46 MSK)

Ссылка

Ответ на: комментарий от xaizek 01.07.17 16:25:39 MSK

man -P 'less -p THRESHOLD' mallopt

да, тоже спасибо. Буду изучать

VLev ★
(02.07.17 20:07:30 MSK)

Ссылка

Ответ на: комментарий от VLev 02.07.17 19:54:55 MSK

да (в смысле - тонко). Но в данном случае важно именно отсутствие swap-а. То есть, когда сумма 1) аллокированной памяти всех mpi-процессов, 2) буферов файлов и 3) mpi-обменов достигнет размера физической памяти --- система не сможет выделять больше ни байта.

Ещё раз повторю: даже при отсутствии свопа система отдаст сколько угодно виртуальной памяти при включенном overcommit'е. То есть вызовы malloc(), mmap() и аналогов завершатся успешно. Далее уже при записи в выделенную виртуальную память, при нехватке физической, в дело вступит OOM-killer.

да. Ведется статистика размера основных выделяемых структур данных. Также в ключевые моменты выводятся данные sysinfo. Из сравнения оценивается утечка. В том числе, это делалось и в режиме один mpi-поток на узел. При этом хорошо видно, что после удаления временных данных в конце этого этапа расчета --- часть памяти системе не возвращается. Причём количество количество «зависшей» памяти кардинальным образом зависит от параметров данной реализации расчета (и это, кстати говоря, воспроизводится).

А вам важно именно количество возвращенной системе памяти? То есть 1000 процессов работают на одном узле и нужно чтобы каждый возвращал память как можно скорее? В противном случае интересна статисктика mallinfo() для процесса.

asaw ★★★★★
(02.07.17 21:50:22 MSK)

Ответ на: комментарий от asaw 02.07.17 21:50:22 MSK

Насколько я понимаю, в нашем случае лучше подождать того момента пока память появится, чем потом напороться на OOM-киллера. Гипотетически мы можем ловить ошибку при выделении памяти, сколько то ждать и потом пытаться повторить выделение, но это будет сложнее и менее эффективно, чем стартовать будучи уверенным что памяти хватит. Иначе ведь память может вообще не появится (ну тупо ее не хватает), а процесс задание уже взял и повис наглухо...

~~AntonI~~ ★★★★★
(02.07.17 22:00:12 MSK) автор топика

Ссылка

Ответ на: комментарий от asaw 02.07.17 21:50:22 MSK

Ещё раз повторю: даже при отсутствии свопа система отдаст сколько угодно виртуальной памяти при включенном overcommit'е. То есть вызовы malloc(), mmap() и аналогов завершатся успешно. Далее уже при записи в выделенную виртуальную память, при нехватке физической, в дело вступит OOM-killer.

В данном случае это несущественные детали, поскольку вся аллокированная память тут же начинает использоваться. Тем не менее и этот вопрос изучался отдельно (поскольку кроме обсуждаемого 1) есть ещё 2) и 3) ). Конкретно на этом проблемном кластере первым срабатывает std::bad_alloc. Я его могу перехватить, но дальше ничего полезного, кроме вывода диагностики, сделать не могу.

А вам важно именно количество возвращенной системе памяти?

Важно, чтобы вся (ну или почти вся) аллокированная, использованная и освобождённая после этого память возвращалась в систему. Пусть не сразу (речь о десятках секунд), и после «стимуляции» (на других кластерах в качестве стимуляции помогает костыль new [большой блок]/delete [большой блок]).

интересна статисктика mallinfo() для процесса.

да, это я уже понял. спасибо

VLev ★
(02.07.17 22:04:02 MSK)
Последнее исправление: VLev 02.07.17 22:04:57 MSK (всего исправлений: 1)

Ответ на: комментарий от VLev 02.07.17 22:04:02 MSK

Важно, чтобы вся (ну или почти вся) аллокированная, использованная и освобождённая после этого память возвращалась в систему.

Тогда два пути: либо меняйте параметры malloc, как писали выше, чтобы память выделялась через mmap для более мелких блоков, либо переопределяйте глобальные new с delete и там вручную делайте

mmap(0, size, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);

с соответствующим munmap() в delete, как, опять же, писали выше.

asaw ★★★★★
(02.07.17 22:48:25 MSK)

А что за задача такая интересная, или это секрет?

~~flyshoot~~ ★
(03.07.17 07:48:13 MSK)

Ответ на: комментарий от flyshoot 03.07.17 07:48:13 MSK

Сейсмическая миграция до суммирования в асимптотическом приближении.

~~AntonI~~ ★★★★★
(03.07.17 08:50:36 MSK) автор топика

Ссылка

Ответ на: комментарий от asaw 02.07.17 22:48:25 MSK

Всем спасибо - проблема решена

Всё, проблема решена. В принципе, основная добавленная строчка: mallopt(M_MMAP_THRESHOLD, 32*1024);

В принципе, альтернатива malloc_trim(0); но это в нашем коде почему-то иногда (редко, но метко) не работает.

Ну и mallinfo(); полезную информацию даёт.

Спасибо также всем принявшим участие в обсуждении, и особенно xaizek и zaz, давшие правильные советы уже в самом начале дискуссии

VLev ★
(03.07.17 21:51:11 MSK)

Ответ на: Всем спасибо - проблема решена от VLev 03.07.17 21:51:11 MSK

«Спасибо также всем принявшим участие в обсуждении, и особенно xaizek и zaz, давшие правильные советы уже в самом начале дискуссии» - поправил (добавил cast). И конечно asaw.

~~AntonI~~ ★★★★★
(04.07.17 09:12:04 MSK) автор топика

Ссылка

Ответ на: Всем спасибо - проблема решена от VLev 03.07.17 21:51:11 MSK

Твой товарищ опять меня кинул? Спроси у него - почему он такой подлец. Месяц обещал, а потом просто заигнорил и игнорирует эту тему уже 3года. Ладно бы хоть сказал «мне это неинтересно», «ты дурак». Как это называется?

Сам вызвался. Сам спорил. Сам обещал. Я ему говорил, что прежде чем изобретать новые методы надо проверить - что, собственно, дают оптимизированные старые. Я ему говорил сколько дают старые - он не верил. Я ему выкатил прототип, который и подтверждает мои слова. Ни ответа, ни привета.

Я и не стал эту тему поднимать, и ничего не писал. Не стал ничего выкатывать. Меня из-за этого тут называют балаболом, но я терпел. А мне плевал в лицо человек ради которого я терпел. Как это называется?

~~saifuluk~~
(04.07.17 20:15:08 MSK)

Ответ на: комментарий от saifuluk 04.07.17 20:15:08 MSK

Вернее не так, после выката ответ был. И ответ был «отвечу», но вот ответа не последовало.

~~saifuluk~~
(04.07.17 20:16:23 MSK)

Ответ на: комментарий от saifuluk 04.07.17 20:16:23 MSK

Потом был ответ что у меня нет на это времени. И его с тех пор больше не стало.

Роман, я Вам рекомендовал пойти в какой нить профильный вуз - это все что я могу для Вас сделать. Простите.

~~AntonI~~ ★★★★★
(05.07.17 08:07:00 MSK) автор топика

Ответ на: комментарий от AntonI 05.07.17 08:07:00 MSK

А сколько этому Роману лет, если не секрет?

anonymous
(06.07.17 19:33:52 MSK)

Ответ на: комментарий от anonymous 06.07.17 19:33:52 MSK

Спросите у него самого?:-)

~~AntonI~~ ★★★★★
(07.07.17 09:16:36 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Hash для вектора double, int64

Development

Почему на гифках нет перемотки? →

Всем спасибо - проблема решена

Похожие темы