Переполнение кэша оперативной памяти

0

1

Есть кластер с RHEL 6.

ФС – gpfs;
Процессор – 24хядерные Intel Xeon;
Оперативка – 128 Гб;
Диски HDD серверные.

Запускается задача явной динамики с массивной записью данных каждого шага на диск. Через какое-то время переполняется кэш оперативной памяти и задача падает с ООМ.

Если запускать на нескольких узлах, то задача падает быстрее. Если запускать на одном узле – падает гораздо позже. На стационарном компьютере (Windows 7, i7-7700k, 64 Гб оперативы, HDD) задача не падает, но считается, очевидно, медленно.

На мой дилетантский взгляд бутылочное горло – дисковая подсистема: производительность нескольких узлов гораздо выше пропускной способности дисков и поэтому «сгенерированные» расчётные данные не успевают записываться на диск; снижаем вычислительную мощность и проблема пропадает.

Вопросы:

Верно ли моё предположение?
Какой самый дешёвый (желательно без покупки нового железа, т.е. программный) и простой (у нас тут все по части Linux дилетанты) способ решить проблему?

P.S. Кроме как уменьшать периодичность записи данных в голову ничего не идёт, но это не очень желательно.

Ссылка

←	Diff выделяемых регионов в emacs

Ошибка при установке texinfo-4.5

→

Попробуй уменьши /proc/sys/vm/dirty_ratio, чтобы проверить, правильны ли твои домыслы.

anonymous
(25.09.19 21:01:13 MSK)

у нас тут все по части Linux дилетанты

Рекомендую перенести в Jobs.

AnDoR ★★★★★
(25.09.19 21:15:50 MSK)

Ответ на: комментарий от anonymous 25.09.19 21:01:13 MSK

Не совсем понимаю, как это должно повлиять на работу. По моим прикидкам выходит, что как увеличение, так и уменьшение значения не приведёт к улучшению работы программы:

Уменьшение значения dirty_ratio приведёт к тому, что при заполнении меньшего (чем ранее) объёма памяти начнётся запись на диск, что приведёт к тому, что операции I/O заблокируются раньше и память закончится быстрее.
Увеличение dirty_ratio позволит загрузить в кэш больше данных, но т.к. скорость записи на диск не увеличивается кэш просто займёт больше памяти, чем ранее и в итоге задача завершится либо так же, как и с исходным значением dirty_ratio, либо раньше, потому что больше памяти занято кэшем.

Подскажите, пожалуйста, где в моих рассуждениях ошибка и какого поведения ожидать?

Если моя догадка про бутылочное горлышко неверна, то как поведёт себя программа при увеличении / уменьшении параметра dirty_ratio?

the_real_kinik ★★
(25.09.19 21:51:25 MSK) автор топика

Ответ на: комментарий от AnDoR 25.09.19 21:15:50 MSK

Рекомендую перенести в Jobs.

Ожидал этого комментария, но нанять стороннего специалиста для решения проблемы будет проблематично.

Предприятие режимное, отсюда и ограничения:

будет предшествовать куча бюрократической волокиты;
сеть наружу никто не откроет, админу придётся ехать на место;
вряд ли руководство предложит оплату, достаточную для того, чтобы мотивировать хорошего специалиста забить на предыдущие два пункта.

Поэтому будем разбираться сами, благо сроки не поджимают.

the_real_kinik ★★
(25.09.19 21:55:10 MSK) автор топика

Какой самый дешёвый (желательно без покупки нового железа, т.е. программный) и простой (у нас тут все по части Linux дилетанты) способ решить проблему?

Своп на ссд.

Deleted
(25.09.19 21:57:19 MSK)

Ссылка

Ответ на: комментарий от the_real_kinik 25.09.19 21:55:10 MSK

Диски медленные. ООМ приходит из-за окончания ОЗУ. Вариант поставить больше дисков и собрать рейд или заменить на ссд.

Deleted
(25.09.19 21:57:38 MSK)

Ссылка

Ответ на: комментарий от the_real_kinik 25.09.19 21:51:25 MSK

Ась? Так ты определись, у тебя просто для программы не хватает памяти? Причём тут тогда диск? Доставляй памяти.

anonymous
(25.09.19 22:10:33 MSK)

Ответ на: комментарий от anonymous 25.09.19 22:10:33 MSK

Судя по логам, памяти для программы достаточно. Память кончается из-за кэша.

the_real_kinik ★★
(25.09.19 22:57:54 MSK) автор топика

Ответ на: комментарий от the_real_kinik 25.09.19 22:57:54 MSK

Память кончается из-за кэша.

Нет https://www.linuxatemyram.com/

goingUp ★★★★★
(25.09.19 23:00:53 MSK)

Ответ на: комментарий от goingUp 25.09.19 23:00:53 MSK

Если бы существовал кэш, от которого можно избавиться, не приходил бы oom, верно ?

Deleted
(25.09.19 23:36:11 MSK)

В долгосрочной перспективе - стоит перейти на cephfs.

Deleted
(25.09.19 23:40:10 MSK)

Ссылка

Ответ на: комментарий от Deleted 25.09.19 23:36:11 MSK

Если бы существовал кэш, от которого можно избавиться, не приходил бы oom, верно ?

Да, поэтому дело в чем-то другом. Может банально самой программе памяти не хватает, а ОП думает, что как-то по другому. Может этот кеш записи, не файловый кеш ОС, а кеш внутри самой программы.

goingUp ★★★★★
(25.09.19 23:58:46 MSK)
Последнее исправление: goingUp 26.09.19 00:00:31 MSK (всего исправлений: 1)

Ответ на: комментарий от goingUp 25.09.19 23:58:46 MSK

По хорошему нужно научить прогу притормаживать, когда к-во свободной памяти стремится к 0. Но мне кажется, что самым дешевым вариантом будет своп. Для начала можно попробовать свопить на hdd, если не хватит - свопить на ssd. Так же очень рекомендуется ко включенному свопу включить zswap. Хотя если данные хорошо сжимаются, то можно попробовать zram, отдав ему 20-40% памяти.

Deleted
(26.09.19 00:12:45 MSK)