LINUX.ORG.RU

Что взять для нейронок?!

 , , ускорители


2

5

Всем привет!

Таки там говорят OpenSource ИИ стал достаточно бодрым, особенно Qwen a3b. Gemma a4b и вообще там прогресс полным ходом идет. Хотелось бы потыкать это все дело, на текущий момент есть:

  1. Ryzen 7950x
  2. Mobo Aorus EliteAX x670e
  3. ddr5 6000 64gb
  4. NVMe 1tb
  5. 1квт БП

И в качестве видюхи затычка 1060. Что в целом уже выглядит как хорошая база для домашнего ИИ, остается только норм видюху купить.

В идеале повайбкодить бы быстро, не ожидая модель по 15 минут. И вот думаю, как это организовать дешевле. Вижу такие варианты:

  • Взять 3090 или две, но боюсь что они будут медленными
  • Китайская 4090 с 48гб vram - тут не ясно что с надежностью
  • A6000 48гб vram - медленее 4090 и возможно медленее и 3090 и стоит дороговато
  • 5090 32gb - тоже дорого и хватит ли 32?

Подскажите что лучше?

Перемещено maxcom из linux-hardware

★★★★

Последнее исправление: AntonyRF (всего исправлений: 2)
Ответ на: комментарий от Bad_ptr

Да, про нвидиевские новые коннекторы – не знаю, как тут можно было прошляпить аналогичное pcie решение, где в разъем коннектор вставляется до щелчка, подозреваю, что дело в том числе в высоких амперах и слишком малом сечении проводов

mazdai ★★★
()
Ответ на: комментарий от AntonyRF

Я хотел бы обратить твое внимание на следующее:

Железо: RTX 4060 8GB · Ryzen 9 7945HX (16 ядер) · 64GB RAM · Fedora 43 · CUDA 13.1 ·

у llama.cpp есть возможность делать llama-swap при включенной переменной окружения

GGML_CUDA_ENABLE_UNIFIED_MEMORY=1

что это значит:

ты можешь в llama конфиге описать несколько моделей.

Обратиться к одной из них, llama загрузит ее в память, поработать с ней, и обратиться к другой модели.

Что произойдет, llama выгзурит из NVRAM модель и переместит ее в RAM. ты работаешь со второй моделью, потом решил перейти обратно к первой, llama выгрузит из NVRAM в RAM, вторую модель, и загрузит из RAM в NVRAM первую модель, эта операция занимает 3-5 секунды.

подробности можешь почитать здесь (в том числе как настроить swap в llama)

https://www.reddit.com/r/LocalLLaMA/comments/1moxk4g/fast_model_swap_with_llamaswap_unified_memory/

и обрати внимание на этот коммент

https://www.reddit.com/r/LocalLLaMA/comments/1moxk4g/comment/n8fjkqr/

и бонусом

llama.cpp (ветка MTP)

9 дней назад MTP таки вмержили

https://github.com/ggml-org/llama.cpp/pull/22673

gagarin0
()
Последнее исправление: gagarin0 (всего исправлений: 3)
Ответ на: комментарий от One

Лучше покупать у китайцев подписку на cursor за 20 долларов и по достижению лимитов новую подписку покупать - самый дешёвый и эффективный вариант вайбкодинга.

Он не китайский. И да, он - говно, которое даже shell нормально не умеет. Ну, и как оказалось, lua тоже не умеет. ЧатГПТ пишет в разы лучше, чем это.

IPR ★★★★★
()

Если честно разница между qwen в облаке и тем, что влезает в мои 24 гб vram (напр. qwen3.5-35b-a3b unsloth q4_k_m), по качеству - небо и земля 🤷 Так что я сдался пока.

Gary ★★★★★
()
Ответ на: комментарий от Gary

Вот только вчера смотрел Taobao, вариантов два:

Две intel b70 суммарно 120к руб + доставка + налог

Две amd r9700 ai суммарно 210к руб + доставка + налог

А челу клоунов поставили из-за низкой пропускной способности унифицированной памяти, он теже самые модели будет на этом маке использовать, что и ты на своих 24 гигах, потому что если вкатануть b70 модель, то получишь пару токенов в секунду +/-

AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 2)
Ответ на: комментарий от AntonyRF

Если все ок будет - напиши плиз

отписываю, полная конфигурация выглядит так:

мать: x99 atermiter
cpu: dual xeon 2697v4
mem: 128gb LDDR4
gpu: 2x rtx 4090 48gb mem
корпус: lancool III
storage: 128GB SSD + 2TB NVME 
блок питания: NGDP 1300P

фото: https://iimg.su/i/5PwFPa

Карты брал тут, по 330к за штуку, продавца рекомендую, он в теме оказался

https://www.avito.ru/moskva/tovary_dlya_kompyutera/sistema_vodyanogo_ohlazhdeniya_nzxt_kraken_elite_360_7549773001

Единственное, он уговорил меня купить NGDP 1300P вместо Sunpower 1700, и на NGDP оказался только один разъем под видеокарту, сейчас решаем с ним что делать), сейчас работает только одна карта, но это дело времени

Карты прогнал тестами, рабочие, серверные-турбина, воют аяаяаяаяй, но благо после установки, сервер отвезу за город, у меня там домашняя серверная есть с оптикой.

gagarin0
()

Плохая идея, оно устареет раньше, чем окупится. Лучше на подписки потраться, на текущей стадии развития локальные в попытках угнаться за гигантами будут наращивать требования только

nebularia ★★★
()
Ответ на: комментарий от gagarin0

Поздравляю и завидую, к сожалению из-за ипотеки я бы сейчас не смог выкинуть 660к на видюхи =(

AntonyRF ★★★★
() автор топика

ВНИМАНИЕ!!!

DRY самплер, который рекомендуют использовать для того чтобы модель не зацикливалась ломает пути к файлам на кириллице!!!!

--dry-multiplier 0.8 --dry-base 1.75 --dry-allowed-length 2

Убрал эти параметры и все заработало

AntonyRF ★★★★
() автор топика

Для нейронок лучше взять подписку. Личное железо будет слишком дорогим для нормальных моделей. А на плохих моделях ты ничего путного не сделаешь. Только убьёшь время.

ox55ff ★★★★★
()

Если повайбкодить то лучше на подписке сидеть и не рыпаться, а если потрогать LLM локально, типа эмбеддинги, хуки там всякие, 4060 тебе хватит.

omgbigboobs
()
Ответ на: комментарий от gagarin0

приехал кабель питания для второй карты, теперь сетап «закончен»

# nvidia-smi
Wed Jun  3 08:05:29 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.159.03             Driver Version: 580.159.03     CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4090        Off |   00000000:02:00.0 Off |                  Off |
| 30%   33C    P8             29W /  450W |       4MiB /  49140MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA GeForce RTX 4090        Off |   00000000:03:00.0 Off |                  Off |
| 30%   33C    P8             28W /  450W |       4MiB /  49140MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
gagarin0
()
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария