Опубликован NBD-VRAM

nbd-vram, nvidia, swap

Опубликован открытый проект NBD-VRAM, позволяющий задействовать часть видеопамяти NVIDIA GPU как swap-пространство в Linux. Проект ориентирован прежде всего на ноутбуки с распаянной оперативной памятью, где RAM нельзя расширить, но при этом в системе есть дискретная видеокарта NVIDIA RTX/GTX с неиспользуемой VRAM. Код написан на C и shell, распространяется под лицензией MIT.

Идея NBD-VRAM проста: если система уже начинает уходить в swap на SSD, можно поставить перед SSD ещё один промежуточный слой — видеопамять. Автор приводит пример с ноутбуком на RTX 3070 Laptop: из 8 ГБ VRAM было выделено 7 ГБ под swap, а суммарно с RAM, zram и SSD swap система получила около 46 ГБ адресуемой памяти. Предполагаемый порядок переполнения такой: сначала используется RAM, затем VRAM как быстрый swap, затем zram, и только после этого SSD.

Технически NBD-VRAM не добавляет новый драйвер ядра. Небольшой демон выделяет память видеокарты через CUDA Driver API, затем отдаёт её ядру Linux как блочное устройство через NBD — Network Block Device — поверх Unix-сокета. После подключения стандартным nbd-client в системе появляется /dev/nbdX, которое можно разметить как обычный swap через mkswap и включить через swapon.

Автор отдельно подчёркивает, что такой подход выбран из-за ограничений потребительских видеокарт NVIDIA. Более прямой путь через NVIDIA P2P API на GeForce, по его словам, упирается в EINVAL, так как соответствующие возможности фактически доступны только для профессиональных и серверных моделей. Вариант с прямым обращением к BAR1 также не сработал: доступной оказывается только небольшая отображённая область, а чтение из остальной части возвращает нули. NBD-подход обходит это ограничение, так как использует обычные CUDA-копирования cuMemcpyHtoD и cuMemcpyDtoH.

Возможности

Использование VRAM как обычного Linux swap. После запуска демон предоставляет видеопамять как /dev/nbd0 или другое NBD-устройство, которое для ядра выглядит как стандартное блочное устройство.
Работа без собственного модуля ядра. Проект не требует писать, собирать и сопровождать отдельный kernel module, не использует внутренние символы NVIDIA-драйвера и должен переживать обновления ядра и драйвера без пересборки.
Ориентация на потребительские NVIDIA GPU. В требованиях указаны NVIDIA GPU с поддержкой CUDA, включая потребительские RTX/GTX-карты, официальный NVIDIA-драйвер с libcuda.so.1, модуль nbd в ядре Linux, nbd-client, gcc и make. CUDA Toolkit при этом не нужен.
systemd-интеграция. Установка через install.sh добавляет сервис vram-swap-nbd, который можно запускать через systemctl; после установки сервис включается для автоматического старта при загрузке.
Настройка размера и приоритета swap. В systemd-unit можно задать VRAM_SETUP_SIZE_MB, то есть верхний предел выделяемой VRAM, и VRAM_SWAP_PRIORITY, то есть приоритет swap-устройства. Чем выше приоритет, тем раньше Linux будет использовать этот swap-слой.
Автоматическое уменьшение запрошенного размера. Если требуемый объём VRAM недоступен, демон пытается уменьшать размер блоками по 512 МиБ, чтобы всё равно выделить доступный объём, например если часть памяти уже занята композитором или графической сессией.
Проверочные сценарии. В репозитории есть test-nbd.sh для смоук-теста с записью/чтением 1 МиБ и test-fill.sh для стресс-проверки всего VRAM-раздела.
Заявленная производительность около 1,3 ГБ/с. На RTX 3070 Laptop автор измерил последовательную запись 7 ГБ блоками по 4 МБ примерно на уровне 1,3 ГБ/с.

Сценарии применения

Ноутбуки с распаянной RAM. Главный сценарий — современные ноутбуки, где 16 или 32 ГБ оперативной памяти уже не хватает, но расширить её невозможно. Если в такой машине есть дискретная RTX-карта, часть VRAM можно использовать как дополнительный swap-слой. Это не превращает VRAM в полноценную RAM, но может спасти систему от резкого ухода в медленный SSD swap или от OOM-killer при пиковых нагрузках.

Тяжёлые рабочие окружения разработчика. IDE, браузер с десятками вкладок, Docker-контейнеры, локальные базы данных, сборки больших проектов и тестовые окружения легко создают кратковременные пики потребления памяти. В таком сценарии NBD-VRAM может работать как буфер: не ускорять обычную работу, а смягчать момент, когда RAM закончилась.

Снижение нагрузки на SSD swap. Если swap на SSD используется часто, это не только медленнее, но и создаёт лишнюю запись на накопитель. VRAM-swap можно поставить с более высоким приоритетом, чтобы при переполнении RAM система сначала вытесняла страницы в видеопамять, а уже потом обращалась к SSD. Особенно это актуально для ноутбуков, где SSD тоже часто несъёмный или дорогой в замене.

Комбинация с zram. Автор прямо описывает схему, где VRAM swap получает более высокий приоритет и принимает первый «разлив» памяти, zram используется следующим уровнем, а SSD остаётся последней линией обороны. Такая схема может быть полезна для рабочих станций и ноутбуков, где важнее сохранить отзывчивость системы при нехватке памяти, чем получить максимальную предсказуемость задержек.

Локальные AI/LLM-задачи вокруг GPU, но не вместо VRAM для модели. NBD-VRAM не увеличивает видеопамять, доступную CUDA-приложению как VRAM для модели. Это обратный сценарий: не RAM используется как VRAM, а VRAM используется как swap для обычной памяти Linux. Поэтому проект не позволит напрямую загрузить в GPU модель большего размера. Но он может быть полезен на машине, где рядом с LLM-инференсом работают браузер, IDE, индексаторы, Python-окружения и контейнеры, а системная RAM начинает заканчиваться.

Домашние и экспериментальные рабочие станции. Проект интересен для пользователей, у которых видеокарта часто простаивает вне игр, рендера или ML-задач. Например, 8–12 ГБ VRAM на десктопной GeForce можно временно превратить в дополнительный слой swap для тяжёлых задач компиляции, обработки данных или запуска виртуальных машин.

Ограничения

NBD-VRAM не является заменой оперативной памяти. Доступ к такому swap идёт по цепочке kernel swap → /dev/nbdX → nbd-драйвер → Unix-сокет → демон → CUDA-копирование → VRAM, поэтому задержки и поведение будут отличаться от настоящей RAM. Это скорее аварийный или промежуточный слой между RAM и SSD, чем способ «добавить памяти» без последствий.

Также проект завязан на официальный стек NVIDIA с CUDA. Nouveau/Nova для этого не подходят, так как требуется libcuda.so.1. Phoronix также отмечает, что NBD-VRAM создан именно для потребительских NVIDIA GPU, где альтернативные подходы через NVIDIA P2P API не работают.

В сухом остатке, NBD-VRAM — небольшой, но любопытный системный хак для Linux: он не делает чудес и не заменяет апгрейд RAM, но позволяет использовать простаивающую видеопамять как дополнительную ступень swap перед SSD. Для ноутбуков с распаянной памятью и дискретной RTX-картой это может оказаться практичным способом переживать пиковые нагрузки без немедленного падения приложений или болезненного ухода в медленный накопитель.

>>> Источник

Ссылка

← QBE 1.3

JetBrains открыла Mellum2 — MoE-модель для быстрых AI-сценариев в разработке →

прикольно, какие костыли нужны, чтобы просто получить доступ к видеопамяти
что тут, что там

madcore ★★★★★
(02.06.26 06:31:01 MSK)

Ссылка

если бы еще это работало на встройке AMD...

Sylvia ★★★★★
(02.06.26 09:54:09 MSK)

Ответ на: комментарий от Sylvia 02.06.26 09:54:09 MSK

Так встройка АМД жрет системную память, зачем еще одна абстракция?

einhander ★★★★★
(02.06.26 10:08:40 MSK)

Ну в общем @firkax местами прав. Текст лучше обрезать до заголовка «Возможности». Читать будет легче и проще. А всех интересующихся слать на страницу софтины.

einhander ★★★★★
(02.06.26 10:22:55 MSK)

Ссылка

Ответ на: комментарий от einhander 02.06.26 10:08:40 MSK

настройки BIOS не позволяют уменьшить аппетиты того, сколько она жрет

Sylvia ★★★★★
(02.06.26 10:33:00 MSK)

Ответ на: комментарий от Sylvia 02.06.26 10:33:00 MSK

У интела вроде была такая настройка. Но я вовремя запихнул 32Гб рамы в ноут и на встройку не обращаю внимание.

einhander ★★★★★
(02.06.26 11:17:30 MSK)

Ответ на: комментарий от einhander 02.06.26 11:17:30 MSK

у меня 2 ноута с встройками Ryzen *500U

Lenovo , с Raven Ridge (Vega) на котором vramfs, упомянутый выше не работает и вообще на нем сложно что-то завести из разряда аппаратного кодирования видео или OpenCL, жрет 1.5 Gb системной памяти, данное значение не меняется, в настройках BIOS просто нет ничего

Maibenben с Renoir (Vega), в нем в BIOS по умолчанию 512Мб, я поставила 2Гб, т.к. взяла его для того чтобы иметь возможность зайти в игры и «отметиться», как он ведет себя с Linux - не знаю.

Sylvia ★★★★★
(02.06.26 11:25:11 MSK)

Ответ на: комментарий от Sylvia 02.06.26 11:25:11 MSK

сложно что-то завести из разряда аппаратного кодирования видео

Я думал подобные проблемы давно миновали карты АМД(

einhander ★★★★★
(02.06.26 12:05:49 MSK)

Ответ на: комментарий от einhander 02.06.26 12:05:49 MSK

я тоже хотела так думать, но «прилетела птица обломинго»

Sylvia ★★★★★
(02.06.26 12:16:35 MSK)

Ссылка

Интересно…

cetjs2 ★★★★★
(02.06.26 14:10:56 MSK)

Ссылка

Для eGPU полезно даже не смотря на идиотскую лицензию, но из-за RTX Spark в ближайшие годы потеряет актуальность.

zabbal ★★★☆☆
(02.06.26 14:32:33 MSK)

Ссылка

А если нет контроля чётности на карте, тогда что?

den73 ★★★★★
(02.06.26 15:02:59 MSK)

Ответ на: комментарий от Sylvia 02.06.26 11:25:11 MSK

Smokeless UMAF тебе позволит изменить это поведение. Я себе наоборот прибавил до 2Гб от заводских 512 Мб.

Jeronimo ★★★
(02.06.26 15:05:28 MSK)
Последнее исправление: Jeronimo 02.06.26 15:06:23 MSK (всего исправлений: 1)

Ответ на: комментарий от Jeronimo 02.06.26 15:05:28 MSK

Если производитель не добавил эту фишку в БИВИс, то до задницы эти умафы.

~~windows10~~ ★★★★★
(02.06.26 15:44:12 MSK)

Ответ на: комментарий от windows10 02.06.26 15:44:12 MSK

а не ты ли в дугой теме затирал, что это ОС должна распоряжаться видимопамятью?

madcore ★★★★★
(02.06.26 15:52:35 MSK)

Ответ на: комментарий от madcore 02.06.26 15:52:35 MSK

а не ты ли в дугой теме затирал, что это ОС должна распоряжаться видимопамятью?

Дело не в этом, а в том что производитель имеет возможность блокировать некоторые настройки компьютера на этапе инициализации.

Если базовая система не поддерживает их инициализацию на старте, то обUMAFься сколько угодно - оно просто не найдет и не покажет этот пункт.

Видимопамять на x86 как по мне - вообще лишняя костылированная сущность из прошлого, когда она была необходима как буфер трансляции между графическим ПО и монитором. Сейчас это разделение лишь мешает: загружая текстуры с носителя, нам приходится сначала загружать их в ОЗУ, затем из ОЗУ копировать в графическую память, а к идее «нахера это делать, если память встроенная» пришли вот только совсем недавно, и то благодаря Аппле.

~~windows10~~ ★★★★★
(02.06.26 16:31:02 MSK)

Ответ на: комментарий от windows10 02.06.26 16:31:02 MSK

Про консоли решил не вспоминать?

У видеопамяти есть абилка высокой ПСП. У системной памяти поточная скорость в разы меньше. Зато латентность получше. Эпл решает это накристальной памятью с широким интерфейсом. В ПК это не особо применимо. Поэтому существует разделение

cobold ★★★★★
(02.06.26 17:00:31 MSK)
Последнее исправление: cobold 02.06.26 17:04:10 MSK (всего исправлений: 2)

Ответ на: комментарий от windows10 02.06.26 16:31:02 MSK

да я так и понял, что тугие разработчики железа пытаются решать какие-то несуществующие проблемы
ынтел ещё ведь при анонсе шины agp и своей легендарной карты i740 объявила, что отдельный видеобуфер больше не нужон

madcore ★★★★★
(02.06.26 17:14:15 MSK)

Ссылка

Ответ на: комментарий от windows10 02.06.26 15:44:12 MSK

У меня не добавил эту возможность. На другом ноуте с 2500U не добавил. Пока получалось.

Прочти, как это работает.

https://www.reddit.com/r/AMDLaptops/comments/1fjqujx/increasing_vram_with_smo...

Пишут, что в новых биосах на стим деке эту возможность закрывают. Люди пользуются разблокировками какими-то.

Jeronimo ★★★
(02.06.26 17:25:45 MSK)
Последнее исправление: Jeronimo 02.06.26 17:32:42 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Jeronimo 02.06.26 15:05:28 MSK

Интересный вариант, спасибо, но я решила проблему с другой стороны, просто добила ноутбук памятью до 20 Гб, хотя по спекам там максимум 12 (4 Гб распаяно, 1 планку можно добавить, изначально там было заткнуто еще 4 Гб , (4+4) - 1.4 = 6.6, в статах хоть и пишет что VRAM 1024 Mb, но куда-то еще улетает 400 Мб)

Вообщем уже не важно, не буду мучать ноут экспериментами

Но OpenCL или аппаратное ускорение хоть чего-нибудь (кроме декодирования видео, которое работает) я бы на нем все же хотела завести

Sylvia ★★★★★
(02.06.26 17:58:16 MSK)
Последнее исправление: Sylvia 02.06.26 18:02:15 MSK (всего исправлений: 1)

Это очень, очень, очень круто. Проверил на ноутбуке i5 + 1050/4Gb. Всё полностью работает. Выделилось 3600мб. Отзывчивость - отличная. Вопрос «Можно ли использовать память видеокарты как оперативную» - решен, в операционной системе линукс точно можно.

bloody_enterprise
(02.06.26 18:03:06 MSK)

Ответ на: комментарий от den73 02.06.26 15:02:59 MSK

А если нет контроля чётности на карте, тогда что?

Тогда нужно купить карту с контролем чётности!

vasya_pupkin ★★★★★
(02.06.26 18:11:29 MSK)

Ссылка

Ответ на: комментарий от windows10 02.06.26 16:31:02 MSK

Сейчас это разделение лишь мешает: загружая текстуры с носителя, нам приходится сначала загружать их в ОЗУ, затем из ОЗУ копировать в графическую память

Direct Storage?

vasya_pupkin ★★★★★
(02.06.26 18:15:10 MSK)
Последнее исправление: vasya_pupkin 02.06.26 18:15:47 MSK (всего исправлений: 1)

Ответ на: комментарий от Sylvia 02.06.26 17:58:16 MSK

у ней драйвер radeonsi?
rusticl или из amdgpu-pro не хотят?

madcore ★★★★★
(02.06.26 18:22:06 MSK)

Текст читается как выхлоп нейронки.

pihter ★★★★★
(02.06.26 18:24:06 MSK)

Ссылка

Ответ на: комментарий от madcore 02.06.26 18:22:06 MSK

radeonsi, не хотят, пишут что нет устройств OpenCL 🤷‍♀️

даже ffmpeg с vulkan encoder сегфолтит

Sylvia ★★★★★
(02.06.26 18:31:40 MSK)

Ссылка

Ответ на: комментарий от vasya_pupkin 02.06.26 18:15:10 MSK

Direct Storage?

Это лишь поменяет место (destination) загрузки, но не избавит от копирования, потому что процессор тоже делает некоторые вычисления с этими данными.

Ну то есть совсем совсем для текстур - поможет.

~~windows10~~ ★★★★★
(02.06.26 18:38:27 MSK)

Ссылка

Ответ на: комментарий от cobold 02.06.26 17:00:31 MSK

Про консоли решил не вспоминать?

Консоли нынче - это недоПК.

У системной памяти поточная скорость в разы меньше.

Это решается многоканальностью.

Эпл решает это накристальной памятью с широким интерфейсом.

Эппл решает это всем сразу, а не одной технологией. На высоких скоростях обмена данных, затыки появляются уже в программных алгоритмах обработки, это и есть причина создания всяких NVMe.

Из линуксячьего мира хрестоматийный пример - велосипед марки «blk-mq».

~~windows10~~ ★★★★★
(02.06.26 18:44:42 MSK)

Идея очень классная. Особенно в плане отвязки от драйверов через /dev/nbd. Очевидно аналогичный демон можно реализовать через openCL для дискреток АМД и интел, а может быть и для нвидии. В идеале бы ещё в того же демона встроить авторежим слежения за использованием видеопамяти и динамически менять размер свопа...

kirill_rrr ★★★★★
(02.06.26 18:45:30 MSK)

Кстати, в 2010-х видеопамять нвидий уже использовали в качестве рам-диска для свопа.

kirill_rrr ★★★★★
(02.06.26 18:46:25 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 02.06.26 18:45:30 MSK

свап на nbd так себе идея, у меня через сеть достаточно часто приводило к зависам :/

Sylvia ★★★★★
(02.06.26 19:09:09 MSK)

Ответ на: комментарий от windows10 02.06.26 18:44:42 MSK

Консоли нынче - это недоПК.

Очень ценная информация. Тем не менее эти недопк используют единую память. И делать это начали раньше эпла

Это решается многоканальностью.

Конечно решается. Вот возьмём средненькую nvidia rtx 3060. ПСП 360 GB/sec. Два канала на топовом интеле с хорошей ддр5 дают 120GB/sec. То есть чтобы питать одну видяху надо 6 каналов. Ну и ещё 2 на проц. Итого 8. Вот значит нам нужна материнка и сокет с 8 каналами памяти и 8 отдельных модулей памяти. Ну и ещё какую-нибудь скоростную шину между процом и ГПУ чтобы решать вопросы когерентности кэшей. И все это в пекарне

cobold ★★★★★
(02.06.26 19:50:57 MSK)

Ответ на: комментарий от Sylvia 02.06.26 19:09:09 MSK

во времена LTSP десятки тонких клиентов юзали без проблем, но с тех пор всё могло поломаться...
на замену nbd есть более взрослое решение - iSCSI

madcore ★★★★★
(02.06.26 20:23:49 MSK)

Ссылка

Ответ на: комментарий от Sylvia 02.06.26 19:09:09 MSK

Это потому что сеть. локально то разрывов и потерь не будет.

kirill_rrr ★★★★★
(02.06.26 20:30:51 MSK)

Ссылка

Ответ на: комментарий от cobold 02.06.26 19:50:57 MSK

Вот возьмём средненькую nvidia rtx 3060. ПСП 360 GB/sec.

ПСП между чем и чем?

То есть чтобы питать одну видяху надо 6 каналов.

Допустим.

Вот значит нам нужна материнка и сокет с 8 каналами памяти и 8 отдельных модулей памяти.

Нет не нужна.

Это разделение «канал = планка» существует исключительно ради существования дешевых вариантов на рынке. Решения по нескольку каналов на планке существовали и раньше, а сейчас с приходом DDR5 стали дефолтом.

Ну и ещё какую-нибудь скоростную шину между процом и ГПУ чтобы решать вопросы когерентности кэшей

Зачем? Ведь в твоей средненькой nvidia rtx 3060 нет скоростных шин.

~~windows10~~ ★★★★★
(02.06.26 21:19:08 MSK)

Глубина очереди = 1, размер файла 4 килобайт, скорость чтения 30 мегабайт. При тех же условиях nvme даёт 90 мегабайт. Скорость работы с графической памятью будет на уровне sata 3 ssd. Разница в том, что nvme может быть занят, а видео память всегда свободна, так что, в качестве раздела подкачки подойдёт.

bloody_enterprise
(02.06.26 21:41:18 MSK)

Ссылка

Ответ на: комментарий от windows10 02.06.26 21:19:08 MSK

Решения по нескольку каналов на планке существовали и раньше, а сейчас с приходом DDR5 стали дефолтом

Ты угараешь? Если один канал на 64 бита разделить на 2 по 32 бита, как сделали в ддр5, то ПСП не увеличивается. Количество линий шины данных не изменилось.

Так что - да, нужна.

Зачем? Ведь в твоей средненькой nvidia rtx 3060 нет скоростных шин.

Мы все ещё обсуждаем общую память между CPU и GPU? В дискретном GPU нет такой шины потому что у нее есть своя выделенная память и с ней он и работает

cobold ★★★★★
(02.06.26 22:58:20 MSK)

Кризис цен на оперативную память зашёл уже очень далеко. Уже добрались до памяти видеокарты, чтобы оттуда откусить себе памяти кусок. Следующим шагом будет изъятие неиспользуемой памяти из кеша контроллеров дисков и использование её для расширения оперативки.

Smacker ★★★★★
(03.06.26 00:47:22 MSK)

Ссылка

Проверил запись = скорость ssd (что неудивительно, при kernel swap → /dev/nbdX → nbd-драйвер → Unix-сокет → демон → CUDA-копирование → VRAM) В чтении тоже почему-то разницы не заметил (всего в 2 раза быстрее записи), но возможно потому-что у меня 8Tb SSD и он тоже не медленный.

Стабильности нет, оставлял и 1 и 2 гб в запасе на видюхе: Браузер с youtube, docker, запускаешь фильм с vdpau и все, можно вырубиться только по кнопке.

Короче swapfile на ssd рулит пока что.

anonymous_sama ★★★★★
(03.06.26 01:42:44 MSK)
Последнее исправление: anonymous_sama 03.06.26 01:44:50 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от cobold 02.06.26 22:58:20 MSK

Ты угараешь? Если один канал на 64 бита разделить на 2 по 32 бита, как сделали в ддр5, то ПСП не увеличивается.

Конечно же увеличивается. Просто ты прицепился к пропускной способности интерфейса, и забыл про такты. Разделение блоков позволяет обратиться к двум адресам за один такт.

В реальном использовании это дает прирост скорости обмена почти в два раза.

Просто ты видимо не работал вплотную с памятью, а я как назло работал с ней вот прямо сегодня.

- - -

Собственно с этой позиции я и ржу с подобных школьных проектов: своп - это понятная и прозрачная подсистема операционки. Засунуть его в очередное непредназначенное для этого места чтобы получить +8-16 гиг - много ума не надо.

А как насчет такого, ммм? https://ibb.co/s96PsNgr

На всякий случай, если не понятно, уточню: всего лишь «видеокарта» на 768 Гб памяти. Как видишь - полностью видна системой. Пока на SSD, но когда будет больше свободного времени на разборки с ПЛИС - сделаю на елочке из SoDIMM как Gigabyte раньше делали RAMDISK'и.

Мы все ещё обсуждаем общую память между CPU и GPU? В дискретном GPU нет такой шины потому что у нее есть своя выделенная память и с ней он и работает

Шина есть у любой связки «АЛУ - память». Есть она и у видеокарты. Но это все лирика, ты меня устал.

~~windows10~~ ★★★★★
(03.06.26 02:10:07 MSK)

Ответ на: комментарий от bloody_enterprise 02.06.26 18:03:06 MSK

Оно только как swap работать может, или можно туда типа tmpfs вывалить?

I-Love-Microsoft ★★★★★
(03.06.26 03:39:19 MSK)

https://wiki.archlinux.org/title/Swap_on_video_RAM

Давно (более десятка лет) в вики висит

video ram as swap

greenman ★★★★★
(03.06.26 05:41:56 MSK)
Последнее исправление: greenman 03.06.26 05:48:30 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 03.06.26 03:39:19 MSK

Да туда можно что угодно в общем, оно просто как блочное устройство на /dev/ndb* видно

anonymous_sama ★★★★★
(03.06.26 06:16:09 MSK)

Ссылка

Ответ на: комментарий от windows10 03.06.26 02:10:07 MSK

Конечно же увеличивается. Просто ты прицепился к пропускной способности интерфейса, и забыл про такты. Разделение блоков позволяет обратиться к двум адресам за один такт.

Конечно же нет. А прицепился к ней я не просто так, а потому что она важна для производительности GPU что в играх, что в ML задачах. А то о чем ты говоришь, это латентность доступа, а не ПСП

cobold ★★★★★
(03.06.26 09:17:52 MSK)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 03.06.26 03:39:19 MSK

Оно только как swap работать может, или можно туда типа tmpfs вывалить?

Делаешь:

swapoff /dev/nbd0
mkfs.ext4 /dev/nbd0
mount /dev/nbd0 /mnt

И можно пользоваться как обычным диском.

bloody_enterprise
(03.06.26 14:23:53 MSK)

Ссылка

Ответ на: комментарий от den73 02.06.26 15:02:59 MSK

А если нет контроля чётности на карте, тогда что?

Разделить память видеокарты на несколько nbd-vram устройств, поднять на них dm-integrity, и объединить в raid-5.

No ★★★
(04.06.26 15:41:03 MSK)

Ссылка

Ответ на: комментарий от den73 02.06.26 15:02:59 MSK

А если нет контроля чётности на карте, тогда что?

Тогда считать вручную, на бумажке, «в столбик», и записывать результат на бумажке же, химическим карандашом... :))

Somebody ★★★★
(05.06.26 05:41:42 MSK)

Ссылка

Автор проекта на связи. Несколько дней назад я объединил в основную ветку крупное обновление. О существовании этой дискуссии я тогда ещё не знал, поэтому кратко расскажу, что изменилось.

Кратко: демон стал многопоточным (производительность при параллельных 4K I/O выросла примерно с 80 тыс. до 310 тыс. IOPS), а главное — устранён дедлок, который раньше намертво зависал систему при сильном давлении на swap (prctl(PR_SET_IO_FLUSHER)). Установщик теперь сам подбирает размер выделяемой VRAM. Следующая задача — автоматическое освобождение VRAM для игр. Это по-прежнему не убийца NVMe: главное преимущество — примерно в 30 раз меньшая задержка при редких страничных промахах, используя бесплатно простаивающую видеопамять.

Многопоточность

Изначально демон был однопоточным: одно соединение, один вызов cuMemcpy на запрос. Именно этот цикл через userspace многие уже справедливо называли узким местом. Теперь используется пул потоков: по одному рабочему потоку и одному NBD-соединению на каждое ядро, отдельный CUDA stream на поток и асинхронные копирования.

Последовательная производительность одного потока практически не изменилась (если одновременно выполняется только один запрос, то он всё равно остаётся одним запросом; использование закреплённых буферов в RAM позволило поднять скорость примерно до 2 ГБ/с). Зато производительность при параллельных 4K-запросах выросла примерно в четыре раза — с ~80 тыс. до ~310 тыс. IOPS благодаря распределению соединений по ядрам и поддержке multi-conn в драйвере NBD.

Где на самом деле находится узкое место

Проблема не в пропускной способности. Каждая операция включает обмен через Unix-сокет, запуск cuMemcpyHtoDAsync и последующий cuStreamSynchronize. Всё это занимает около 25 мкс и фактически задаёт нижний предел для производительности на мелких I/O.

Масштабирование прекращается примерно на количестве физических ядер. SMT и дополнительные соединения практически ничего не дают сверх этого. Следующий логичный шаг — объединять несколько запросов NBD в один вызов cuMemcpy, чтобы уменьшить накладные расходы на запуск и синхронизацию. Такой подход должен дать больший прирост IOPS, чем дальнейшее увеличение числа потоков. Также заметную роль играют TLB shootdown’ы на стороне ядра.

Исправление зависания системы

Наиболее важным для меня было устранение полной блокировки системы.

Ранее при длительной нагрузке однопоточный демон упирался в предел производительности, и машина полностью зависала. Это классический дедлок swap-over-NBD: для обслуживания записи в swap требуется выделение памяти, а при отсутствии свободной RAM это выделение запускает reclaim, который сам ожидает завершения той самой записи.

mlockall здесь не помогает, поскольку закрепляет только уже существующие страницы памяти.

Исправление заключается в использовании prctl(PR_SET_IO_FLUSHER), что включает PF_MEMALLOC_NOIO и PF_LOCAL_THROTTLE — тот же механизм применяют nfs-ganesha и libfuse, — а также OOMScoreAdjust=-1000.

Теперь система способна заполнить весь объём swap в VRAM (7 ГБ в моих тестах) при полностью исчерпанной оперативной памяти и при этом остаётся работоспособной.

Возврат VRAM для игр

На Hacker News меня спрашивали: «Можно ли автоматически вернуть VRAM, когда пользователь захочет поиграть?» То же самое относится к любым ресурсоёмким графическим приложениям.

Пока автоматически это не реализовано. Однако установщик теперь спрашивает, сколько видеопамяти выделять, и даёт рекомендации в зависимости от того, используется ли видеокарта для вывода изображения. Для выделенной или второй карты можно использовать почти весь объём VRAM. Для карты, к которой подключён монитор, рекомендуется оставить запас.

Я проводил стресс-тесты, одновременно выполняя 3D-рендеринг, CUDA-вычисления и активное использование swap в той же видеопамяти. Система деградирует предсказуемо: GPU загружен на 100%, рабочий стол начинает подтормаживать, но ничего не падает.

Единственное жёсткое ограничение — объём памяти. Если приложение пытается выделить больше VRAM, чем остаётся доступно из-за демона, выделение просто завершается ошибкой.

Автоматическое отключение swap при запуске графических приложений и его последующее восстановление уже выделено в отдельную задачу. По сути, это развитие уже существующего механизма автоматического отключения, который сейчас используется для решения проблем с энергосбережением и переходом GPU в режим пониженного энергопотребления.

Про NVMe

Это по-прежнему не конкурент NVMe, и я не собираюсь утверждать обратное.

NVMe значительно превосходит решение по пропускной способности и параллельной производительности.

Но в плане задержек есть интересный сценарий использования: при редких одиночных страничных промахах задержка оказывается примерно в 30 раз ниже, чем у NVMe. Именно такие события часто вызывают заметные подвисания рабочего стола. Причина в том, что NVMe обычно находится в энергосберегающем состоянии APST и вынужден просыпаться перед обработкой запроса, тогда как VRAM не имеет подобных состояний энергосбережения.

В итоге получается бесплатный, практически не изнашиваемый и очень быстрый дополнительный swap, использующий память, которая в противном случае простаивала бы без дела.

Да, это нишевое решение. Но для ноутбуков с распаянной оперативной памятью и дискретной видеокартой, которая большую часть времени ничем не занята, такая схема вполне имеет смысл.

c0deJedi
(12.06.26 07:46:04 MSK)