LINUX.ORG.RU

Порезать видеокарту на кусочки для виртуалок

 ,


0

3

Дано: несколько видеокарт (порядка 10) и много пользователей (порядка 100). Для каждого пользователя создаётся виртуалка, на которой он будет заниматься мЫшиным обучением, интерфейс пользователя - Jupyter notebook. Нужно дать пользователям справедливый доступ к GPU, то есть дать возможность из jupyter запускать что-то на GPU, не отжирая ресурсы (например, видеопамять) у соседа. У всех должно быть поровну ресурсов (без оверселлинга). Какую систему виртуализации лучше использовать?


Если видюхи профессиональные, вроде nvidia grid, и для них есть лицензии, то vsphere это умеет

https://docs.nvidia.com/grid/latest/index.html#hypervisor-release-notes

Только скорость ml будет на уровне канализации. Они все же для ускорения графики предназначены

router ★★★★★
()

В идеале тебе нужно SR-IOV. Это когда одно физическое устройство - графическая карта или сетевуха - видитися как несколько виртуальных. Притом это делается на уровне железа/драйвера. Далее ты эти вируальные девайсы прокидываешь виртуалки. Там много условий чтобы это сделать, но это действительно «золотой стандарт» для таких сценариев.

Визуализация: https://developer.ibm.com/tutorials/l-pci-passthrough/ Figure 4. Passthrough with SR-IOV

Демка для сетевух (мне в своё время было интересно именно для сетевух): https://www.youtube.com/watch?v=ltxzUUn1Mg8

Поддержка видеокартами: https://open-iov.org/index.php/GPU_Support

Деальше нагуглишь.

Kroz ★★★★★
()
Последнее исправление: Kroz (всего исправлений: 2)
Ответ на: комментарий от Kroz

Поддержка видеокартами: https://open-iov.org/index.php/GPU_Support

Спасибо, полезная статья. Т.е. на домашних видюхах (без аппаратного SR-IOV) все же можно (только не быстро), если ядро умеет делить карты программно через mdev (mediated device)

router ★★★★★
()

Никакую :-) То, что ты хочешь, продаётся за миллионы нефти в проприетарных драйверах для очень дорогих промышленных видеокарт.

intelfx ★★★★★
()
Ответ на: комментарий от intelfx

«Тред не читай, сразу отвечай» :) Древние традиции лора

Но вообще да, для полноценного ml ему будет проще поделить время, а не ресурсы. Сначала первые 10 пользователей, потом следующие. Или докупать железо

router ★★★★★
()
Ответ на: комментарий от router

Я исхожу из разумного предположения, что если бы у ТСа были профессиональные видюхи и доступ к актуальному софту для них, то этого вопроса он бы не задавал (или задавал не на ЛОРе).

Это тот случай, когда «если вы спрашиваете, сколько это стоит, значит, вам не хватит» (точнее, наоборот: «если бы у вас было то, с помощью чего можно решить данную задачу, вы бы об этом уже знали»).

intelfx ★★★★★
()
Последнее исправление: intelfx (всего исправлений: 2)
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария