История изменений
Исправление One, (текущая версия) :
Не увидел сколько памяти на действующем железе Попробуй «взлететь» и на существующем.
https://habr.com/ru/companies/selectel/articles/934902/
тут полезно для себя когда-то открыл в комментариях текст, начиная с " Нужно выгрузить тензоры внимания со всех слоев в VRAM" …
Можно засунуть целые слои, чтобы заполнить те же 14гб. Для этого есть новый параметр –n-cpu-moe X, количество moe-слоев которые будут выгружена на CPU, остальное останется на GPU.
Исходная версия One, :
Не увидел сколько памяти на действующем железе Попробуй «взлететь» и на существующем.
https://habr.com/ru/companies/selectel/articles/934902/
тут полезно для себя когда-то открыл в комментариях текст, начиная с " Нужно выгрузить тензоры внимания со всех слоев в VRAM"