Что взять для нейронок?!

gpu, искусственный интеллект, ускорители

Всем привет!

Таки там говорят OpenSource ИИ стал достаточно бодрым, особенно Qwen a3b. Gemma a4b и вообще там прогресс полным ходом идет. Хотелось бы потыкать это все дело, на текущий момент есть:

Ryzen 7950x
Mobo Aorus EliteAX x670e
ddr5 6000 64gb
NVMe 1tb
1квт БП

И в качестве видюхи затычка 1060. Что в целом уже выглядит как хорошая база для домашнего ИИ, остается только норм видюху купить.

В идеале повайбкодить бы быстро, не ожидая модель по 15 минут. И вот думаю, как это организовать дешевле. Вижу такие варианты:

Взять 3090 или две, но боюсь что они будут медленными
Китайская 4090 с 48гб vram - тут не ясно что с надежностью
A6000 48гб vram - медленее 4090 и возможно медленее и 3090 и стоит дороговато
5090 32gb - тоже дорого и хватит ли 32?

Подскажите что лучше?

Перемещено maxcom из linux-hardware

← Решение универсальной задачи обоснованного выбора лучшего из двух вариантов. Примеры в Colab

Решение задачи удаления избыточных терминов в заданном контексте без потери информации. Примеры в Colab →

← 1 2 3 →

Ответ на: комментарий от Bad_ptr 23.05.26 14:14:26 MSK

Да, про нвидиевские новые коннекторы – не знаю, как тут можно было прошляпить аналогичное pcie решение, где в разъем коннектор вставляется до щелчка, подозреваю, что дело в том числе в высоких амперах и слишком малом сечении проводов

mazdai ★★★
(23.05.26 14:36:41 MSK)

Ответ на: комментарий от gagarin0 23.05.26 13:33:20 MSK

А где видюхи брал? Если все ок будет - напиши плиз

AntonyRF ★★★★
(23.05.26 16:21:30 MSK) автор топика

Ответ на: комментарий от AntonyRF 20.05.26 17:33:40 MSK

Я хотел бы обратить твое внимание на следующее:

Железо: RTX 4060 8GB · Ryzen 9 7945HX (16 ядер) · 64GB RAM · Fedora 43 · CUDA 13.1 ·

у llama.cpp есть возможность делать llama-swap при включенной переменной окружения

GGML_CUDA_ENABLE_UNIFIED_MEMORY=1

что это значит:

ты можешь в llama конфиге описать несколько моделей.

Обратиться к одной из них, llama загрузит ее в память, поработать с ней, и обратиться к другой модели.

Что произойдет, llama выгзурит из NVRAM модель и переместит ее в RAM. ты работаешь со второй моделью, потом решил перейти обратно к первой, llama выгрузит из NVRAM в RAM, вторую модель, и загрузит из RAM в NVRAM первую модель, эта операция занимает 3-5 секунды.

подробности можешь почитать здесь (в том числе как настроить swap в llama)

https://www.reddit.com/r/LocalLLaMA/comments/1moxk4g/fast_model_swap_with_llamaswap_unified_memory/

и обрати внимание на этот коммент

https://www.reddit.com/r/LocalLLaMA/comments/1moxk4g/comment/n8fjkqr/

и бонусом

llama.cpp (ветка MTP)

9 дней назад MTP таки вмержили

https://github.com/ggml-org/llama.cpp/pull/22673

gagarin0 ★
(25.05.26 18:05:40 MSK)
Последнее исправление: gagarin0 25.05.26 18:08:44 MSK (всего исправлений: 3)

Ответ на: комментарий от One 16.05.26 13:21:32 MSK

Лучше покупать у китайцев подписку на cursor за 20 долларов и по достижению лимитов новую подписку покупать - самый дешёвый и эффективный вариант вайбкодинга.

Он не китайский. И да, он - говно, которое даже shell нормально не умеет. Ну, и как оказалось, lua тоже не умеет. ЧатГПТ пишет в разы лучше, чем это.

IPR ★★★★★
(26.05.26 00:08:57 MSK)

Ответ на: комментарий от gagarin0 25.05.26 18:05:40 MSK

Ага, спасиб

AntonyRF ★★★★
(26.05.26 12:07:05 MSK) автор топика

Если честно разница между qwen в облаке и тем, что влезает в мои 24 гб vram (напр. qwen3.5-35b-a3b unsloth q4_k_m), по качеству - небо и земля 🤷 Так что я сдался пока.

Gary ★★★★★
(28.05.26 00:17:17 MSK)

Ответ на: комментарий от Gary 28.05.26 00:17:17 MSK

Ток сегодня на реддит увидел, что для qwen надо как минимум Q8 иначе глупеет, а это значит что где-то в 64гб vram надо целиться

AntonyRF ★★★★
(28.05.26 16:12:18 MSK) автор топика

Ответ на: комментарий от AntonyRF 28.05.26 16:12:18 MSK

64гб vram

Ну и где ты столько возьмешь? Вот чел предложил мак купить, а ему клоунов понаставили.

Gary ★★★★★
(28.05.26 18:46:23 MSK)

Ответ на: комментарий от Gary 28.05.26 18:46:23 MSK

Вот только вчера смотрел Taobao, вариантов два:

Две intel b70 суммарно 120к руб + доставка + налог

Две amd r9700 ai суммарно 210к руб + доставка + налог

А челу клоунов поставили из-за низкой пропускной способности унифицированной памяти, он теже самые модели будет на этом маке использовать, что и ты на своих 24 гигах, потому что если вкатануть b70 модель, то получишь пару токенов в секунду +/-

AntonyRF ★★★★
(29.05.26 11:18:40 MSK) автор топика
Последнее исправление: AntonyRF 29.05.26 11:19:47 MSK (всего исправлений: 2)

Ответ на: комментарий от AntonyRF 23.05.26 16:21:30 MSK

Если все ок будет - напиши плиз

отписываю, полная конфигурация выглядит так:

мать: x99 atermiter
cpu: dual xeon 2697v4
mem: 128gb LDDR4
gpu: 2x rtx 4090 48gb mem
корпус: lancool III
storage: 128GB SSD + 2TB NVME 
блок питания: NGDP 1300P

фото: https://iimg.su/i/5PwFPa

Карты брал тут, по 330к за штуку, продавца рекомендую, он в теме оказался

https://www.avito.ru/moskva/tovary_dlya_kompyutera/sistema_vodyanogo_ohlazhdeniya_nzxt_kraken_elite_360_7549773001

Единственное, он уговорил меня купить NGDP 1300P вместо Sunpower 1700, и на NGDP оказался только один разъем под видеокарту, сейчас решаем с ним что делать), сейчас работает только одна карта, но это дело времени

Карты прогнал тестами, рабочие, серверные-турбина, воют аяаяаяаяй, но благо после установки, сервер отвезу за город, у меня там домашняя серверная есть с оптикой.

gagarin0 ★
(29.05.26 12:52:58 MSK)

Плохая идея, оно устареет раньше, чем окупится. Лучше на подписки потраться, на текущей стадии развития локальные в попытках угнаться за гигантами будут наращивать требования только

nebularia ★★★
(29.05.26 16:34:34 MSK)

Ответ на: комментарий от gagarin0 29.05.26 12:52:58 MSK

Поздравляю и завидую, к сожалению из-за ипотеки я бы сейчас не смог выкинуть 660к на видюхи =(

AntonyRF ★★★★
(29.05.26 17:05:11 MSK) автор топика

Ответ на: комментарий от nebularia 29.05.26 16:34:34 MSK

Может быть, но я уже тыщ 40 потратил на подписки, т.е. еще чуть-чуть и 3090 окупилась бы. А за два года видюха за 100к.

AntonyRF ★★★★
(29.05.26 17:06:13 MSK) автор топика

ВНИМАНИЕ!!!

DRY самплер, который рекомендуют использовать для того чтобы модель не зацикливалась ломает пути к файлам на кириллице!!!!

--dry-multiplier 0.8 --dry-base 1.75 --dry-allowed-length 2

Убрал эти параметры и все заработало

AntonyRF ★★★★
(29.05.26 17:07:20 MSK) автор топика

https://vkvideo.ru/video-69225549_456239525?t=8m33s

Bad_ptr ★★★★★
(31.05.26 02:33:16 MSK)

Ответ на: комментарий от gagarin0 17.05.26 20:16:13 MSK

подкроватная LLM останется

Железо тоже быстро обесценивается

Saakx ☆
(31.05.26 02:59:39 MSK)

Ответ на: комментарий от Saakx 31.05.26 02:59:39 MSK

как страшно жить, и как вы с этим справляетесь???

gagarin0 ★
(31.05.26 03:05:22 MSK)

Ответ на: комментарий от AntonyRF 29.05.26 17:06:13 MSK

Не, ну если совмещать приятное с полезным и ещё и играть, то да)

nebularia ★★★
(01.06.26 08:27:14 MSK)

Для нейронок лучше взять подписку. Личное железо будет слишком дорогим для нормальных моделей. А на плохих моделях ты ничего путного не сделаешь. Только убьёшь время.

ox55ff ★★★★★
(01.06.26 08:46:51 MSK)

Если повайбкодить то лучше на подписке сидеть и не рыпаться, а если потрогать LLM локально, типа эмбеддинги, хуки там всякие, 4060 тебе хватит.

omgbigboobs
(02.06.26 10:32:38 MSK)

Ответ на: комментарий от gagarin0 29.05.26 12:52:58 MSK

660к на карты, - не удобнее было бы взять там же за те же деньги rtx pro 6000 96гб?

baja ★
(02.06.26 11:04:59 MSK)

Ответ на: комментарий от baja 02.06.26 11:04:59 MSK

rtx pro 6000 96гб?

вариант с 2x rtx 4090 48gb mod бюджетнее

gagarin0 ★
(02.06.26 11:17:04 MSK)

Ответ на: комментарий от gagarin0 29.05.26 12:52:58 MSK

приехал кабель питания для второй карты, теперь сетап «закончен»

# nvidia-smi
Wed Jun  3 08:05:29 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.159.03             Driver Version: 580.159.03     CUDA Version: 13.0     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4090        Off |   00000000:02:00.0 Off |                  Off |
| 30%   33C    P8             29W /  450W |       4MiB /  49140MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA GeForce RTX 4090        Off |   00000000:03:00.0 Off |                  Off |
| 30%   33C    P8             28W /  450W |       4MiB /  49140MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

gagarin0 ★
(03.06.26 11:08:09 MSK)

Обнаружил любопытную опцию загруки для Linux ttm.pages_limit=.
Люди используют её вместе с новыми «большими» APU, которые могут поддерживать до 192GB RAM, чтобы увеличить GTT RAM.

Решил опробовать на R3 2200G APU с 16GB RAM. Добавил в загруку ttm.pages_limit=3276800.

Запускаем Gemma 4 E4B ~5.7GB (с Vulkan-ом).

amd-smi metric | grep -A 9 MEM_USAGE
    MEM_USAGE:
	TOTAL_VRAM: 512 MB
        USED_VRAM: 465 MB
        FREE_VRAM: 47 MB
        TOTAL_VISIBLE_VRAM: 512 MB
        USED_VISIBLE_VRAM: 465 MB
        FREE_VISIBLE_VRAM: 47 MB
        TOTAL_GTT: 12800 MB
        USED_GTT: 10082 MB
        FREE_GTT: 2718 MB

ps_mem
.....
385.7 MiB + 364.5 KiB = 386.0 MiB	llama-server
412.7 MiB + 111.3 MiB = 524.0 MiB	firefox (11)
---------------------------------
                          1.5 GiB

free -mt
               total        used        free      shared  buff/cache   available
Mem:           15389       14060         591           7         967        1329
Swap:           1023           7        1016
Total:         16413       14067        1608

#zfs:  arc_summary
ARC size (current):                                   100.1 %    2.0 GiB

Итого приблизительно: 0.5GB VRAM + 0.25GB GART + 9.9GB GTT + 2GB zfs ARC + 1.5GB progs in RAM = 14.25GB

Получаем 7tps, пока «думает» нагрузка на CPU ~35%.
Это где-то 2-2.5 раза быстрее, чем на 8 ядерном CPU, загруженом на 100%. Температура APU ~48°C.

Т.е. с этой опцией в принципе, имя достаточно RAM, можно запускать большие модели, которые не поместятся в VRAM обычной видекарты.

К сожалению эта опция с GTT RAM работает только для iGPU, т.е для APU. Для dGPU она используется драйвером и программами только чтобы хранить вспомогательные данные как в кэше, копируя их из GTT в VRAM и обратно по неоходимости.

Подробнее про опцию: https://rocm.docs.amd.com/en/latest/how-to/system-optimization/rdna3-5.html (Запускал на Fedora 43, там все патчи уже есть; а ROCm вообще не установлен.)

Попозже добавлю RAM и потестирую свежую Gemma 4 12B ~12GB.

anonymous
(06.06.26 18:50:51 MSK)

Ответ на: комментарий от anonymous 06.06.26 18:50:51 MSK

R3 2200G APU with 24GB RAM and with ttm.pages_limit=4718592 in cmdline

amd-smi metric | grep -A 9 MEM_USAGE                                                                                                                nbox: Thu Jun 11 18:48:37 2026

    MEM_USAGE:
    TOTAL_VRAM: 512 MB
        USED_VRAM: 483 MB
        FREE_VRAM: 29 MB
        TOTAL_VISIBLE_VRAM: 512 MB
        USED_VISIBLE_VRAM: 483 MB
        FREE_VISIBLE_VRAM: 29 MB
        TOTAL_GTT: 18432 MB
        USED_GTT: 16552 MB
        FREE_GTT: 1880 MB

ps_mem
.....
27.0 MiB + 420.5 KiB =  27.4 MiB    llama-server
248.6 MiB +  99.5 MiB = 348.0 MiB   firefox (11)
---------------------------------
                        665.3 MiB

free -mt
               total        used        free      shared  buff/cache   available
Mem:           23429       20218        2892           2         647        3211
Swap:           1023         694         329
Total:         24453       20912        3221

#zfs:  arc_summary
ARC size (current):                                    99.9 %    2.0 GiB

Запускаем Gemma 4 12B, ~11.8GB, получаем ~2.5 tps, пока «думает» нагрузка на CPU ~35%. (firefox потребляет CPU больше, чем Llama.cpp сервер). Это где-то 8 раз быстрее, чем на 8 ядерном CPU, загруженом на 100%.

С другой стороны Llama.cpp может сам распределить нагрузку: часть слоёв на dGPU, часть слоёв на CPU. В таком комбинированном случае получаем ~3 tps.

Выводы.

Да, с опцией ttm.pages_limit= можно увеличивать размер GTT RAM больше, чем установка по умолчанию, т.е. половина RAM. И да, iGPU эффективно работает, обеспечивая значительно большую производительность, чем CPU. Единственное, что ограничивает, это производительность самого iGPU (11CU) и DDR4 RAM (2667MHz).

Судя по тестам в Интернете AI Max 395 на подобной модели генерит ~20 tps.

По всей видимости, хороший GPU с большой быстрой RAM всё же пока эффективнее.

anonymous
(11.06.26 21:02:05 MSK)

18 июля 2026 г.

«Семь мини-ПК объединили в кластер и запустили модель DeepSeek-V3.1 с 671 млрд параметров.» link Да, да, те самые ‘AI Max 395’, только каком-то непонятным образом их объеденили с помощью USB4. Также на фотке непонятная OS.

anonymous
(18.07.26 22:03:36 MSK)

← 1 2 3 →

← Решение универсальной задачи обоснованного выбора лучшего из двух вариантов. Примеры в Colab

Искусственный Интеллект

Решение задачи удаления избыточных терминов в заданном контексте без потери информации. Примеры в Colab →

Похожие темы