Тестируем Linux 5.12—5.17 с патчем Multigenerational LRU Framework

1

3

Новость о патче: https://www.opennet.ru/opennews/art.shtml?num=54972

Пришло время тестировать ядро с этим патчем. Патч принят в linux-zen, и соответственно буду тестировать zen-kernel-5.12.4-zen1.

TLDR;

OOMK Killer приходит даже с еще большей задержой, чем при отключении multigen LRU;
работа vm.swappiness сломана;
работа vm.watermark_scale_factor сломана;
при включении multigen LRU не работают эффекты патча le9 [1], обеспечивающего защиту чистого кэша файлов.

Подробности далее.

[1] https://github.com/hakavlad/le9-patch

Призывается @post-factum

Ссылка

←	Нужно установить драйвер nvidia на headless сервер Debian 10 Buster.

Как майнить эфир в соло?

→

← 1 2 3 4 →

Ранее мы рассмотрели и усовершенствовали работу патча le9 Защищаем чистый кэш файлов при нехватке памяти для предотвращения пробуксовки и livelock

hakavlad ★★★
(16.05.21 14:26:16 MSK) автор топика

Ссылка

shrink_lru_gens()? Ну или если глубже, то get_nr_to_scan().

post-factum ★★★★★
(16.05.21 15:44:46 MSK)
Последнее исправление: post-factum 16.05.21 15:51:27 MSK (всего исправлений: 2)

Ответ на: комментарий от post-factum 16.05.21 15:44:46 MSK

или здесь?

static bool should_skip_page(struct page *page, struct scan_control *sc)
{
	if (!sc->may_unmap && page_mapped(page))
		return true;

	if (!(sc->may_writepage && (sc->gfp_mask & __GFP_IO)) &&
	    (PageDirty(page) || (PageAnon(page) && !PageSwapCache(page))))
		return true;

	if (!get_page_unless_zero(page))
		return true;

	if (!TestClearPageLRU(page)) {
		put_page(page);
		return true;
	}

	return false;
}

hakavlad ★★★
(16.05.21 16:38:54 MSK) автор топика

Ответ на: комментарий от hakavlad 16.05.21 16:38:54 MSK

Вряд ли. Здесь слишком малая гранулярность.

post-factum ★★★★★
(16.05.21 18:11:14 MSK)

Ответ на: комментарий от post-factum 16.05.21 18:11:14 MSK

что насчет fill_lru_gen_lists или drain_lru_gen_lists()?

	for_each_evictable_lru(lru) {
		int file = is_file_lru(lru);
		bool active = is_active_lru(lru);
		struct list_head *head = &lruvec->lists[lru];

		if (!lruvec->evictable.enabled[file])
			continue;

выглядит знакомо

anonymous
(17.05.21 07:48:41 MSK)

Ответ на: комментарий от anonymous 17.05.21 07:48:41 MSK

Не думаю.

post-factum ★★★★★
(17.05.21 09:11:05 MSK)

Ответ на: комментарий от post-factum 16.05.21 15:44:46 MSK

Куда ни глянь - везде работа с отдельными страницами. Нет?

anonymous
(18.05.21 05:17:03 MSK)

Судя по новости этот патч не про oom, а про активный свопинг. А то что они поломали кучу других механизмов, ну что ж, это гугл! Хотя были у меня какие то надежды что они ускорят процесс.

kirill_rrr ★★★★★
(18.05.21 05:24:08 MSK)

Ответ на: комментарий от kirill_rrr 18.05.21 05:24:08 MSK

Судя по новости этот патч не про oom, а про активный свопинг.

Все верно. Однако факт остается фактом - со свопом киллер приходит еще реже, даже когда пора приходить.

они поломали кучу других механизмов

Не то чтобы поломали, а ввели новые механизмы (старые никуда не делись, можно налету переключаться между сарым и новым), в которых настройки от старые не работают или работают иначе. - Алгоритм-то у нового совсем другой, ломающий основы.

они ускорят процесс

Какой процесс?

anonymous
(18.05.21 06:32:05 MSK)

Ответ на: комментарий от anonymous 18.05.21 06:32:05 MSK

даже когда пора приходить.

Я всё таки продолжаю считать, что суть подсистемы свопинга в том, чтобы oom вообще никогда не приходил. Это в конце концов последнее средство когда пациенту уже не помочь.

Какой процесс?

Свопинг в ядре однопоточный и очень прожорливый на цпу. Буквально, скорость обработки данных где то между компрессией zip и lzma, причём ближе скорее к lzma. Всякие там zram вполне возможно что упираются совсем не в сжатие-распаковку данных.

kirill_rrr ★★★★★
(19.05.21 20:23:57 MSK)

https://lore.kernel.org/lkml/20210520065355.2736558-1-yuzhao@google.com/

Новая версия.

post-factum ★★★★★
(20.05.21 17:48:01 MSK)

Ответ на: комментарий от kirill_rrr 19.05.21 20:23:57 MSK

суть подсистемы свопинга в том, чтобы oom вообще никогда не приходил

Нет.

post-factum ★★★★★
(20.05.21 17:48:28 MSK)

Ответ на: комментарий от anonymous 18.05.21 05:17:03 MSK

Куда ни глянь, всюду г*вно.

post-factum ★★★★★
(20.05.21 17:49:05 MSK)

Ссылка

Кстати, вот ещё:

https://github.com/oracle/memoptimizer/

post-factum ★★★★★
(20.05.21 19:32:50 MSK)

Ответ на: комментарий от post-factum 20.05.21 17:48:28 MSK

Но уж точно не для того, чтобы убивать задачи пользователя для сохранения комфортного объёма дисковых кешей. А в 95% случаев именно об этом и идёт речь когда говорят о задержке прихода oom. А если своп всё таки имеется и не запрещён, то oom вообще приходит только удастся исчерпать выделенное место на диске.

kirill_rrr ★★★★★
(20.05.21 21:58:05 MSK)

Ответ на: комментарий от post-factum 20.05.21 17:48:01 MSK

What's new in v3
================
1) Fixed a bug reported by the Arch Linux kernel team:
   https://github.com/zen-kernel/zen-kernel/issues/207
2) Rebased to v5.13-rc2.

Так себе обновление.

Ведь они не вылечили проблемы, обозначенные в оп-посте. Кстати, куда репортить - в новое обсуждение или в старый v2 тред, если тестировал именно с v2?

hakavlad ★★★
(21.05.21 02:10:04 MSK) автор топика

Ответ на: комментарий от kirill_rrr 18.05.21 05:24:08 MSK

не про oom, а про активный свопинг

И про неактивный тоже.

anonymous
(21.05.21 04:04:41 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 19.05.21 20:23:57 MSK

Всякие там zram вполне возможно что упираются совсем не в сжатие-распаковку данных.

zram упирается в распаковку: ЦП загружен на 100% при активном своппинге. Скорость сжатия (и своппинга при этом) зависит от алгоритма zram.

anonymous
(21.05.21 04:14:27 MSK)

Ответ на: комментарий от post-factum 20.05.21 19:32:50 MSK

the program initiates compaction with a view to recovering the fragmented memory

Может быть уже не актуально: в 5.8 или 5.9 завезли proactive compaction.

anonymous
(21.05.21 04:18:08 MSK)

Ответ на: комментарий от kirill_rrr 20.05.21 21:58:05 MSK

Задача №1 - сброс неактивной анонимной памяти, когда ООМ и рядом не валялся. - Чтобы освободить память для файловых кэшей. Своп может улучшать производительность нагруженного сервера. который нормально работает, и памяти достаточно.

классическая статья: https://chrisdown.name/2018/01/02/in-defence-of-swap.html

Задача№2 - таки да, предотвращение ООМ.

Задача №3 - suspend to disk.

anonymous
(21.05.21 04:36:54 MSK)

Ответ на: комментарий от anonymous 21.05.21 04:36:54 MSK

ах, еще #4 существует мнение, что своп используется при дефрагментации памяти - фрагментированные куски перемещаются сначала в своп, и никак иначе. Косвенно подтверждается тем, что при запуске compaction десяток МБ улетает в своп.

anonymous
(21.05.21 04:39:05 MSK)

Ответ на: комментарий от anonymous 21.05.21 04:14:27 MSK

swapoff раздела ssd тоже упирается в цпу и идёт примерно с той же скоростью, что и «распаковка» zram. И более того, я ещё никогда не видел чтобы сброс данных на диск при свопинге шёл значительно быстрее этой скорости.

kirill_rrr ★★★★★
(21.05.21 05:19:04 MSK)

Ответ на: комментарий от anonymous 21.05.21 04:39:05 MSK

Задачей №1 в последние 30 лет всё таки было расширение физически доступной памяти за счёт диска чтобы вообще в принципе выполнить задачи, превышающие доступный объём памяти. Возможно это не сильно актуально для современных серверов и энтерпрайз спешно пытается переорентировать подсистему на друге здадачи, но…

А по пункту 4 это вообще ходячий анекдот. Серьёзно, дефрагментация памяти, нажми кнопку для ускорения ПК бесплатно и без смс? Был вроде какой то косяк, когда процесс не может освободить страницу памяти если хотя бы один бит ещё используется, но насколько я знаю эта проблема вообще не рассматривается на уровне страниц и подсистема свопинга в принципе не задаётся этим вопросом. А если бы её хотели решить на этом уровне, то надо быть идиотом чтобы в обязательном порядке гонять страницы на диск и обратно чтобы убрать разрежение.

kirill_rrr ★★★★★
(21.05.21 05:31:45 MSK)

Ответ на: комментарий от kirill_rrr 21.05.21 05:31:45 MSK

Серьёзно, дефрагментация памяти, нажми кнопку для ускорения ПК бесплатно и без смс?

Теперь кнопка не нужна

compaction_proactiveness

This tunable takes a value in the range [0, 100] with a default value of 20. This tunable determines how aggressively compaction is done in the background. Setting it to 0 disables proactive compaction.

Note that compaction has a non-trivial system-wide impact as pages belonging to different processes are moved around, which could also lead to latency spikes in unsuspecting applications. The kernel employs various heuristics to avoid wasting CPU cycles if it detects that proactive compaction is not being effective.

Be careful when setting it to extreme values like 100, as that may cause excessive background compaction activity.

https://github.com/torvalds/linux/blob/master/Documentation/admin-guide/sysctl/vm.rst#compaction_proactiveness

см также https://savvinov.com/2019/10/14/memory-fragmentation-the-silent-performance-killer/

anonymous
(21.05.21 07:21:59 MSK)

Ответ на: комментарий от hakavlad 21.05.21 02:10:04 MSK

Тестируешь новую серию и репортишь в новую ветку.

post-factum ★★★★★
(21.05.21 09:16:48 MSK)

Ответ на: комментарий от anonymous 21.05.21 04:18:08 MSK

Одно другому не мешает.

post-factum ★★★★★
(21.05.21 09:17:10 MSK)

Ссылка

The multigenerational lru should perform optimally out of the box

как вам такое?

https://forum.xanmod.org/thread-4102-post-7597.html#pid7597

anonymous
(21.05.21 09:47:58 MSK)

Ссылка

Ответ на: комментарий от post-factum 17.05.21 09:11:05 MSK

Join #pfkernel @ Libera.Chat IRC.

Ты зачем из фриноды ушел? Нормально же общались.

anonymous
(21.05.21 10:22:56 MSK)

Ответ на: комментарий от anonymous 21.05.21 10:22:56 MSK

Тебе припекает?

post-factum ★★★★★
(21.05.21 10:31:52 MSK)

Ответ на: комментарий от post-factum 21.05.21 10:31:52 MSK

Просто интересно. Почему ты повелся на моральную панику, раздутую хейтерами фриноды?

anonymous
(21.05.21 10:38:00 MSK)

Ответ на: комментарий от anonymous 21.05.21 10:38:00 MSK

АПВС?

post-factum ★★★★★
(21.05.21 11:15:32 MSK)

Ответ на: комментарий от post-factum 21.05.21 11:15:32 MSK

АПВОВНВ?

anonymous
(21.05.21 11:41:07 MSK)

Ответ на: комментарий от anonymous 21.05.21 11:41:07 MSK

Не засоряй эфир.

post-factum ★★★★★
(21.05.21 11:47:16 MSK)

Ссылка

Ответ на: комментарий от anonymous 21.05.21 07:21:59 MSK

Как это вяжется с повсеместной рандомизацией памяти как защиты от многих атак? И разумеется с тем, что доступ к рандомизированной и фрагментированной ОЗУ имеет ту же скорость, что и к дефрагментированной. Это для начала, не читая статей.

kirill_rrr ★★★★★
(21.05.21 16:23:04 MSK)
Последнее исправление: kirill_rrr 21.05.21 16:24:35 MSK (всего исправлений: 1)

Ответ на: комментарий от post-factum 21.05.21 09:16:48 MSK

Накатил 5.13.0-rc2-mg-LRU.

Проблемы с приходом киллера со свопом не воспроизводятся, однако защита файловых страниц по-прежнему не работает как следует (swappiness=200 не защищает файловый кэш, или защищает слабо).

Подробности позже.

hakavlad ★★★
(22.05.21 06:38:57 MSK) автор топика
Последнее исправление: hakavlad 22.05.21 06:39:06 MSK (всего исправлений: 1)

Ответ на: комментарий от hakavlad 22.05.21 06:38:57 MSK

Удалось воспроизвести значительную задержку киллера с запущенным браузером и ютубом во вкладке (киллер приходил нормально без запущенных приложений).

Логи

mem2log https://pastebin.com/3bCUWFci

psi2log https://pastebin.com/bC00jWUz

Давление памяти под сотню пока ждем киллера. @post-factum

hakavlad ★★★
(22.05.21 06:59:59 MSK) автор топика
Последнее исправление: hakavlad 22.05.21 07:00:23 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от hakavlad 22.05.21 06:38:57 MSK

Еще пример: вкладка с ютубом + tail /dev/zero. Ждал киллера больше минуты при зависшей системе.

mem2log https://pastebin.com/GCFVkTr5

psi2log https://pastebin.com/QGjtxsW7

Система на HDD, своп на zram.

hakavlad ★★★
(22.05.21 07:37:17 MSK) автор топика

Ответ на: комментарий от hakavlad 22.05.21 07:37:17 MSK

тот же опыт, логи с таймстемпами

mem2log https://pastebin.com/raw/9s0PuUrA

psi2log -m0 https://pastebin.com/raw/7ui5xatN

psi2log -m2 https://pastebin.com/raw/LAYLa5dz (здесь psi2log завис на 70 секунд несмотря на mlockall)

hakavlad ★★★
(22.05.21 07:58:47 MSK) автор топика

Ссылка

Надо софт оптимизировать, чтобы память не жрал, а не oom-киллеры писать.

LongLiveUbuntu ★★★★★
(22.05.21 08:11:05 MSK)

Ответ на: комментарий от post-factum 21.05.21 09:16:48 MSK

Как сломан vm.watermark_scale_factor.

С классическим LRU, если swappiness=0 или имеет прочие низкие значения, повышение vm.watermark_scale_factor приводит к повышению уровня файл кэша, и своппинг продвигается легко, и система не виснет.

Что имеем с мультиген:

если swappiness=0 и vm.watermark_scale_factor=100, то своппинг не продвигается совсем, киллер не приходит, давление памяти под сотню, система мертва (при отключениии мультиген своппинг идет легко при сохранении файлового кэша).

логи

mem2log https://pastebin.com/0Ft1KkPG - файл падает в ноль, своп при этом не задействуется.

psi2log https://pastebin.com/raw/rxfRLp10 - давление при этом под сотню, киллера дождаться надежды не было, вызывал киллера руками.

hakavlad ★★★
(22.05.21 08:21:03 MSK) автор топика

Ссылка

Ответ на: комментарий от LongLiveUbuntu 22.05.21 08:11:05 MSK

Одно другому не помеха. Случаются непредвиденные утечки иногда, и ядро со своей стороны должно на утечки адекватно реагировать, а не вешать систему.

hakavlad ★★★
(22.05.21 08:22:00 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 21.05.21 07:21:59 MSK

А прочитав статью я так и не понял, а собственно нахрена? Память процессов виртуальна и рандомизирована, драйвера и всякие железо-специфичные буферы погоду делают редко или крайне редко. Разделяемая память? Ну допустим, я хз как это работает, но её же в норме немного.

kirill_rrr ★★★★★
(22.05.21 20:15:23 MSK)

Ссылка

Классика. Уже пожертвуйте индусов из microsoft/reactos/haiku/kolibrios, чтобы исправили VM в ядре, уже ясно что кто угодно в этом соображает лучше разработчиков ядра.

anonymous
(23.05.21 01:55:33 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 20.05.21 21:58:05 MSK

Это бессмысленно. Когда достаточно большое количество данных будет гоняться из/в свап, 99.(9)% времени работы компа будет занято сваппингом. Это замедлит работу компа до абсолютно бессмысленно медленной. Свапить имеет смысл пока средний отклик ещё остаётся более-менее терпимым. Дальше нужно валится, тк продолжать бессмысленно становится.

anonymous
(23.05.21 02:02:21 MSK)

Ответ на: комментарий от kirill_rrr 21.05.21 05:19:04 MSK

Ты там опыт со своим говноплатником не проецируй на нормальных людей.

anonymous
(23.05.21 02:05:27 MSK)

Ответ на: комментарий от kirill_rrr 21.05.21 05:31:45 MSK

Никто в здавом уме не гоняет задачи в свопе.

anonymous
(23.05.21 02:07:39 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 21.05.21 16:23:04 MSK

Рандомизация памяти это когда стартовые адреса некоторых структур располагают по случайному адресу, а не тасуют абсолютно все страницы памяти в случайном порядке. Прекращай уже фантазировать даже не попытавшись разобраться в предмете.

anonymous
(23.05.21 02:12:04 MSK)

Ссылка

Ответ на: комментарий от LongLiveUbuntu 22.05.21 08:11:05 MSK

Нужно и то и другое одновременно, а ложные дихотомии не нужны.

anonymous
(23.05.21 02:24:28 MSK)

mgLRU различает только swappiness=0 и swappiness>0.

При нулевом происходит полный запрет своппинга.

При положительном ведет себя примерно как с классическим LRU при swappiness=100 и watermark_scale_factor=1.

swappiness=200 с mgLRU не работает, в io-bound задачах поэтому mgLRU может проигрывать.

Надеюсь зарепортить это позже в LKML.

Что-то пока тихо совсем в треде v3.

@post-factum Таким образом, все тезисы справедливы и для v3.

hakavlad ★★★
(23.05.21 05:59:48 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 23.05.21 02:24:28 MSK

Ага, когда когда при компиляции Хромиума g++ забивает мне память и своп под завязку, оптимизировать его жор конечно же не нужно, пусть лучше ядро его прибивает. А вот clang справляется в этом плане куда лучше - сразу видно, что люди делали.

LongLiveUbuntu ★★★★★
(23.05.21 08:18:03 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

←	Нужно установить драйвер nvidia на headless сервер Debian 10 Buster.

General

Как майнить эфир в соло?

→

Похожие темы