LINUX.ORG.RU

Что взять для нейронок?!

 , , ускорители


2

5

Всем привет!

Таки там говорят OpenSource ИИ стал достаточно бодрым, особенно Qwen a3b. Gemma a4b и вообще там прогресс полным ходом идет. Хотелось бы потыкать это все дело, на текущий момент есть:

  1. Ryzen 7950x
  2. Mobo Aorus EliteAX x670e
  3. ddr5 6000 64gb
  4. NVMe 1tb
  5. 1квт БП

И в качестве видюхи затычка 1060. Что в целом уже выглядит как хорошая база для домашнего ИИ, остается только норм видюху купить.

В идеале повайбкодить бы быстро, не ожидая модель по 15 минут. И вот думаю, как это организовать дешевле. Вижу такие варианты:

  • Взять 3090 или две, но боюсь что они будут медленными
  • Китайская 4090 с 48гб vram - тут не ясно что с надежностью
  • A6000 48гб vram - медленее 4090 и возможно медленее и 3090 и стоит дороговато
  • 5090 32gb - тоже дорого и хватит ли 32?

Подскажите что лучше?

Перемещено maxcom из linux-hardware

★★★★

Последнее исправление: AntonyRF (всего исправлений: 2)
Ответ на: комментарий от Lrrr

в целом вывод: не стоит оно того.

Ну во-первых у меня электричество в два раза дешевле чем в статье.

Во-вторых, я пробовал Codex\Claude и там выходит что юзабельные подписки для меня стоят около $100 в месяц, если ориентироваться на $1200 в год, то 5090 где-то за 3-4 года окупиться. А 3090, за полгода кстати

В-третьих OpenRouter так то тоже может сожрать пару тыщ руб за запрос, там на сколько помню, нет фиксированных тарифов. C локальной моделью платишь только за железо + за свет. Ну и видюху для других задач юзать можно, так что сомнительно. Больше похоже на скрытую рекламу OpenRouter

AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 1)
Ответ на: комментарий от KillTheCat

Вопрос ведь не в приватности, а в том, что из-за п-ских политических игрищ можно в любой момент лишиться возможности пользоваться по подписке и вместо целевой работы опять пытаться восстановить себе доступ.

Проще уж один раз заморочиться, взять себе железо под условную Qwen3.6-35B-A3B / Qwen3-Coder-Next и привыкнуть к работе с ней (обмазать инструментарием), а потом пользоваться до тех пор, пока совсем уж морально не устареет.

qa
()
Ответ на: комментарий от AntonyRF

Во-вторых, я пробовал Codex\Claude и там выходит что юзабельные подписки для меня стоят около $100 в месяц

так это мягко говоря другая категория по сравнению с квенами и геммами. Тут дело не только в количестве токенов, но и в их качестве.

Чисто для сравнения, для того чтобы заселфхостить тот же deepseek, нужно что-то типа терабайта оперативки.

А если боишься что чебурнет и т.п., то квены с геммами хостят и в рунете. Яндекс, сбер, МТС, наверняка и многие другие. Не считая сервисов которые предоставляют прокси-доступ по образцу openrouter.

Lrrr ★★★★★
()
Последнее исправление: Lrrr (всего исправлений: 1)

Короче братва, взял я llama.cpp, unsloth qwen3.6-35b-a3b-mtp. Запустил на 4060 на ноуте с 8гб vram и получил:

  • Prompt: 64.2 t/s
  • Generation: 42.1 t/s

Сейчас прикручиваю к pi agent.

256K контекст + активный агент занимают 6.5гб vram. KV Cache сжимаю через TurboQuant. MTP тоже использую.

AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 1)
Ответ на: комментарий от AntonyRF

Короче братва, взял я llama.cpp, unsloth qwen3.6-35b-a3b-mtp. Запустил на 4060 на ноуте с 8гб vram и получил: Prompt: 64.2 t/s Generation: 42.1 t/s Сейчас прикручиваю к pi agent.

Ок. Сообщите если Ваш опыт с «нейронками» принесет какую либо пользу, все очень хотят знать

superuser ★★★★☆
()
Ответ на: комментарий от superuser

Да кажется, что уже принес.

Во-первых 8гб это достаточно распространённый формат.

Во-вторых я затащил на лаптопной версии 35b MoE с нормальной скоростью.

Ну и pi агент сделал план для онлайн кинотеатра на Rust, Axum, Sqlite за секунд 30. Что как бы уже шустрее sonnet.

Сегодня завтра поиграюсь в это, а потом уже распишу впечатления

  Финальная конфигурация Qwen3.6-35B-A3B

  Железо: RTX 4060 8GB · Ryzen 9 7945HX (16 ядер) · 64GB RAM · Fedora 43 · CUDA 13.1 · llama.cpp (ветка MTP)

  llama-server \
    -m Qwen3.6-35B-A3B-UD-IQ2_M.gguf \   # MTP-модель от unsloth, IQ2_M (~12GB)
    --alias qwen3.6-35b-a3b-mtp \
    --spec-type draft-mtp \               # MTP — спекулятивное декодирование
    --spec-draft-n-max 3 \                # до 3 черновых токенов за шаг
    -ngl 99 \                             # все 41 слоя (внимание) на GPU
    --n-cpu-moe 99 \                      # все MoE-эксперты на CPU
    -c 262144 \                           # контекст 256K
    --parallel 1 \                        # 1 слот = весь контекст одному диалогу
    -ctk q8_0 -ctv q8_0 \                 # KV cache q8_0 (почти без потерь)
    -fa on \                              # Flash Attention (нужен для квант. KV)
    --no-mmap \                           # модель целиком в память
    --host 127.0.0.1 --port 8080

  Ключевая идея (MoE на 8GB): модель — 35B всего / 3B активных, 256 экспертов на слой. Веса экспертов (основной объём) уходят на CPU, а лёгкое внимание + KV cache всех слоёв остаются на
  GPU. CPU Ryzen 9 тянет 3B активных параметров без проблем.

  Замеры:
  - VRAM: idle 6.5GB → пик 7.4GB / 8.2GB (тест на 218K токенов)
  - Скорость: ~55 t/s (малый контекст) → ~33 t/s (предел 256K)
  - Обработка промпта: ~420 t/s (Pi кэширует префикс — в диалоге считаются только новые токены)
AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 1)
Ответ на: комментарий от LightDiver

Попробовал, курсор, увы, получше за вышеуказанную 20ку, Lingma как будто год назад на модели вернулся.

One ★★★★★
()
Ответ на: комментарий от One

Вот именно Unsloth и юзаю, вместе с MTP, МР с TurboQuant выкинул так как в текущей реализации компрессия плохо работает, плюс модель тупеет, а еще ее написали с использованием ИИ и МР отклонили. Контекст снизил до 192k, так как на компрессии контекста зависало

AntonyRF ★★★★
() автор топика
Ответ на: комментарий от AntonyRF

Насколько довольны результатом, пользуетесь ли этим? Я повторил ваш конфиг у себя, потребление VRAM и скорость конечно радуют, но моделька как будто отупела до 14b - по частоте галюцинаций как минимум. Не знаю, MTP это или IQ2_M так сказалось.

Wombat_Ichule
()
Ответ на: комментарий от Wombat_Ichule

От сюда же взяли модель https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF ? Важно чтобы была unsloth версия с MTP и GGUF

Я пока успел поиграться только с циклами и если составить план с чек листами, то оно вроде бы не плохо его выполняет. Так же всякие простые вопросы про Rust успешно делает.

По норм разработке еще не было достаточно времени использовать, чуть погонял в Pi Agent и вроде бы все было ок.

НО тут действительно очень агрессивное сжатие, возможно стоит уменьшить контекст до 128к и попробовать затащить Q4_K_M, там будут минимальные глюки.

Еще нужно настроить температуру, я бы рекомендовал: –temp 0.7 (или ниже, например 0.5 для фактологических задач). –top-p 0.9. Высокая температура при квантованной модели усиливает хаос.

Если vram у вас больше чем у меня (8гб), то можно сильно улучшить конфиг

AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 1)
Ответ на: комментарий от One

MTP вроде как только на 1% влияет на тупость модели, а скорость почти в два раза возрастает

AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 1)
Ответ на: комментарий от AntonyRF

Да, моделька ровно та же. Полная 35b-Q4_K_M на 12Гбайт VRAM не влезает, попробую 4-битный вариант 27b, 2-битный 35b как-то совсем не радует.

А что с контекстом делать планируете? В исходном посте нету ни --context-shift, ни --keep, то есть по истечении окна контекста моделька просто перестанет отвечать. Сдвиг с сохранением начала тоже решение так себе, надо бы к концу окна делался autocompact. Но это уже наверное задача агента.

Wombat_Ichule
()
Ответ на: комментарий от Wombat_Ichule

Сейчас Pi Agent прекрасно делает /compact, так что ничего не планирую делать, как контекст заканчивается будем висеть минутку на сжатии и потом дальше. Я тоже качаю Q4 (но правда Q4_K_XL), посмотрю сколько влезет и скину итоговый конфиг. Но что-то мне кажется, что придется до 128k контекст уменьшать

AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 1)
Ответ на: комментарий от Wombat_Ichule

Итоговый конфиг получился такой:

LD_LIBRARY_PATH=/usr/local/cuda-13.1/lib64 \
  ~/llama.cpp/build-cuda/bin/llama-server \
      \
      `# === модель и алиас ===` \
      -m ~/models/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf  `# Unsloth Dynamic Q4_K_XL (имatrix), MTP-вариант` \
      --alias "qwen3.6-35b-a3b-mtp"                `# имя модели в /v1/models и в API запросах` \
      \
      `# === Multi-Token Prediction (спекулятивное декодирование) ===` \
      --spec-type draft-mtp                        `# использовать встроенный в GGUF MTP-слой как draft-модель` \
      --spec-draft-n-max 5                         `# до 5 черновых токенов за шаг (при acceptance >70% — большой выигрыш)` \
      \
      `# === оффлоад слоёв ===` \
      -ngl 99                                      `# все 41 слой attention + KV cache на GPU` \
      --n-cpu-moe 99                               `# все 256 MoE-экспертов на CPU (только 3B активных за шаг, CPU тянет)` \
      \
      `# === контекст и KV ===` \
      -c 196608                                    `# окно 192K токенов` \
      --parallel 1                                 `# один слот → полный контекст одной сессии` \
      -ctk q8_0                                    `# KV cache K квантован q8_0 (~½ от F16, потеря <0.5% perplexity)` \
      -ctv q8_0                                    `# KV cache V — то же` \
      -fa on                                       `# Flash Attention (обязательно для квантованного KV)` \
      \
      `# === батчинг (ускоряет prompt processing в ~5×) ===` \
      -b 2048                                      `# логический батч prompt-eval (сколько токенов планируется за итерацию)` \
      -ub 768                                      `# физический микро-батч (больше => больше VRAM на compute buffer)` \
      \
      `# === кэш промпт-префикса ===` \
      --cache-reuse 256                            `# переиспользовать KV для общего префикса (≥256 токенов совпадения)` \
      \
      `# === reasoning ===` \
      --reasoning-budget 2048                      `# до 2048 токенов на <think>...</think>, потом форсим выход` \
      \
      `# === прочее ===` \
      --no-mmap                                    `# модель грузится целиком в RAM (без mmap), быстрее на NVMe + меньше swap-фризов` \
      --host 0.0.0.0                               `# слушать на всех интерфейсах (LAN); для локального — 127.0.0.1` \
      --port 8080                                  `# OpenAI-совместимый эндпоинт: http://host:8080/v1`


7.5Gb в vram, Promt eval 472 t/s, генерация 29 токенов в секунду. Работает на Q4_K_XL, минимум глюков. Если у вас 12гб vram, то можно поднять контекст. Если 16гб, то еще и буферы.

Чисто мои ощущения, что для бесплатного использования норм. Но скорости нет, все равно нужна не моя 4060, а что-то сильно лучше. Полдня протыкал промты, полезного мало что сделал. Тут либо в цикл модель ставить и пусть она 24/7 что-то делает, либо железо получше

AntonyRF ★★★★
() автор топика

первый шаг сделан

урвал сегодня

Huananzhi МодельX99 F8D LGA 2011-3 Dual

xeon dual 2497v4

128GB DDR4

за скромные 41к

дальше 2TB nvme, блок питания с двумя разъемами 12V-2x6 и собственно сама 4090 48gb

gagarin0
()
Последнее исправление: gagarin0 (всего исправлений: 3)

Сам пользуюсь одной 7900 XTX, достаточно шустро вытягивает даже 70B модели, подозреваю, что с большим количеством ОЗУ это не предел. Они обычно дешевле 4090 и поддерживаются библиотеками вроде PyTorch и TensorFlow (последним не очень хорошо, к сожалению) – большая часть софта поддерживает карты AMD через HIP или Vulkan, может иметь смысл купить пару таких карт и добить памяти/SSD.

mazdai ★★★
()
Ответ на: комментарий от AntonyRF

Какой расход ОЗУ?

Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_M таки влезла в мои 12Гб VRAM с 192к контекстом, даже осталось ~1.9Гб. Производительность не очень, 32 для eval, но хоть моделька не слишком убога.

Занято 89% из 32 Гб памяти, свопа нет. i7-12700K. GPU 4070Ti загружен на 90-98%. Видимо в него все и уперлось (ожидаемо).

Но с этим уже можно как-то жить.

Wombat_Ichule
()
Ответ на: комментарий от One

По доступной мощности для вычислений зато сравнение с 4090 вполне корректно. В режиме FP16 она выдает 122.8 TFLOPS против 165.2 TFLOPS у 4090 (и то в тензорном режиме, без него ~80, как с FP32).

https://www.techpowerup.com/gpu-specs/geforce-rtx-4090.c3889

https://www.techpowerup.com/gpu-specs/xfx-rx-7900-xtx.b9927

mazdai ★★★
()
Последнее исправление: mazdai (всего исправлений: 1)
Ответ на: комментарий от Wombat_Ichule

Какой расход ОЗУ?

Я особо не замерял, так как у меня 64гб, но Fedora + браузер + редактор кода + llama.cpp сервер жрут где-то 44гб свободно, думаю одна llama.cpp ест около 25-30гб только под модель a3b

AntonyRF ★★★★
() автор топика
Ответ на: комментарий от mazdai

FP16 / FP32

Нужны были бы они для бытовых нейронок. У тебя же не модель 70B в формате FP16

Реально int4/8, а самое главное - лишь скорость памяти, поэтому если найти не сильно б/у 3090 она еще огого, да еще и с CUDA

One ★★★★★
()
Ответ на: комментарий от qa

Вопрос ведь не в приватности, а в том, что из-за п-ских политических игрищ можно в любой момент лишиться возможности пользоваться по подписке и вместо целевой работы опять пытаться восстановить себе доступ.

Всё ещё хуже - сам т.н. «ИИ» является политическим игрищем и финансовым пузырём. :) А ты при этом переживаешь о том, что это пузыреигрище может оказаться не вечным. Доступ куда ты собрался пытаться восстанавливать, когда пузырь т.н. «ИИ» лопнет, прожекты которые ты на своём железе запускал внезапно потеряются, всё что связано с т.н. «ИИ», включая его фанатов станет неимоверно «токсичным», а всякие Альтманы, как обычно, быстренько подадут на банкротство? :) :) :)

Stanson ★★★★★
()
Ответ на: комментарий от AntonyRF

А где ее купить то?

ХЗ. У меня товарищ (из Москвы) на newegg взял, через байеров наверное.

И почему не r9700 от amd?

Потому что дороже почти в два раза, например.

pekmop1024 ★★★★★
()
Последнее исправление: pekmop1024 (всего исправлений: 1)
Ответ на: комментарий от pekmop1024

Потому что дороже почти в два раза, например.

А я чот слышал что разница в 200-300 баксов, а amd рвет интела почти в два раза по бенчмаркам

AntonyRF ★★★★
() автор топика
Ответ на: комментарий от One

Ну а какие коэффициенты к производительности ты ожидаешь с указанными точностями вычислений, кроме 4 и 2 соответственно? По поводу скорости памяти у 3090 Ti 1.01 TB/s, как и у 4090, у 3090 же 936.2 GB/s против 960 GB/s у 7900 XT/XTX. Поводом ввалить денег в нвидию тут может быть жесткая привязка к CUDA и невидия-онли библиотеки и решения, ну или фанбойство, но никак не удельная производительность на бакс.

mazdai ★★★
()
Ответ на: комментарий от mazdai

Справедливости ради, по дефолту llama.cpp ставиться без поддержки nvidia CUDA и где-то так в два раза медленее на моей 4060 шевелиться, чем если скомпилировать с CUDA. Так что хз, 7900 достойные карты, но на авито почти таже цена что и на 3090, соответственно, я вообще тогда прикол не понимаю. Ок если бы они тыщ по 40 стоили, а так я 3090 за 55 уже видел.

AntonyRF ★★★★
() автор топика
Ответ на: комментарий от AntonyRF

Без разницы, какую карту брать из этого класса, по существу, важен объем VRAM, цена (не нарваться при этом на карту после майнинга) и поддержка драйверами. Я бы докинул денег и взял не б/у, но попроще, чем печку под двенадцати контактный проприетарный разъем (с функцией самоуничтожения) после майнинга очередного альткоина

mazdai ★★★
()
Последнее исправление: mazdai (всего исправлений: 1)
Ответ на: комментарий от gagarin0

Вот полный конфиг, все компоненты куплены и доедут до меня на следующей неделе

Материнская плата:Huananz X99 F8D LGA 2011-3 Dual

Процессоры: dual xeon 2697v4

Память: LDDR4 128GB (4x32) (думаю докупить еще столько же)

Видеокарты: 2 штуки, nvidia rtx 4090 48gb mod (всего 96gb nvram)

Диск: 2TB nvme western digital

Блок питания: NGDP 1300w Platinum

Корпус: Lancool III

gagarin0
()
Последнее исправление: gagarin0 (всего исправлений: 1)
Ответ на: комментарий от mazdai

двенадцати контактный проприетарный разъем (с функцией самоуничтожения)

Это про те истории когда разъёмы плавились?
Так вроде там разобрались что контакт плохой был, люди тупо не до конца вставляли(ну и у любого разъёма есть ресурс втыканий).
Или это про какие-то другие разъёмы?

Bad_ptr ★★★★★
()
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария