LINUX.ORG.RU

Что взять для нейронок?!

 , , ускорители


0

3

Всем привет!

Таки там говорят OpenSource ИИ стал достаточно бодрым, особенно Qwen a3b. Gemma a4b и вообще там прогресс полным ходом идет. Хотелось бы потыкать это все дело, на текущий момент есть:

  1. Ryzen 7950x
  2. Mobo Aorus EliteAX x670e
  3. ddr5 6000 64gb
  4. NVMe 1tb
  5. 1квт БП

И в качестве видюхи затычка 1060. Что в целом уже выглядит как хорошая база для домашнего ИИ, остается только норм видюху купить.

В идеале повайбкодить бы быстро, не ожидая модель по 15 минут. И вот думаю, как это организовать дешевле. Вижу такие варианты:

  • Взять 3090 или две, но боюсь что они будут медленными
  • Китайская 4090 с 48гб vram - тут не ясно что с надежностью
  • A6000 48гб vram - медленее 4090 и возможно медленее и 3090 и стоит дороговато
  • 5090 32gb - тоже дорого и хватит ли 32?

Подскажите что лучше?

★★★★

Последнее исправление: AntonyRF (всего исправлений: 2)
Ответ на: комментарий от Bad_ptr

NVlink для ИИ почти ничего не дает, память не становится общей. Плюс форматов не хватает и тензорных ядер. Две 3090 дадут сильно большую производительность инференса притом ещё и дешевле. Для MoE даже с большим контекстом не нужно 100гигов vram

AntonyRF ★★★★
() автор топика
Ответ на: комментарий от AntonyRF

Две 3090 дадут сильно большую производительность

Какие решения стоит рассмотреть, хочу крутить LLM в домашних условиях очень активно, бюджет 300к

gagarin0
()
Ответ на: комментарий от Bad_ptr

NVlink чуть быстрее позволяет гонять данные между видеокартами. У каждой карты сохраняется свой контроллер и своё адресное пространство и не появляется общей памяти, это все равно перетаскивание между картами данных значительно медленнее, чем в общем адресном пространстве. Плюс софт должен знать, как работать с этим и софт должен распределять слои по разным видеокартам сам. Короче, с v100 получается ситуация, когда у нас быстрый обмен данными с медленными картами, а если мы берём две 3090, то у нас быстрые карты с медленным обменом, но все равно для иишек 3090 получается предпочтительнее.

Upd: кстати у 3090 тоже есть NVlink, тогда у v100 заканчиваются преимущества

AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 1)
Ответ на: комментарий от AntonyRF

NVlink чуть быстрее

«чуть»… по сравнению с чем?

софт должен знать, как работать с этим и софт должен распределять слои по разным видеокартам сам

точно?

все равно для иишек 3090 получается предпочтительнее

ну, как знаете

Bad_ptr ★★★★★
()
Ответ на: комментарий от AntonyRF

у 3090 тоже есть NVlink, тогда у v100 заканчиваются преимущества

что в любом случае не отменяет того факта, что мать/проц/ддр тут не сыграют значительной роли
зароляет именно скорость и объём видеопамяти

Но если вам принципиально считать нейронки на CPU, тогда надо выбирать процессор с наиболее большим количеством каналов DDR5 памяти и в каждый канал извольте сунуть плашку

Bad_ptr ★★★★★
()
Ответ на: комментарий от Bad_ptr

Для MoE желательно иметь 64-128 гб быстрой рамы. Там активные параметры и kvcache лежат в vram. Остальное в ram. Сейчас прям большие модели мало кто развивает 70b выглядят более отсталыми чем 35b/27b варианты. Может я конечно не прав, но ощущение такое. А для таких моделей 32-48гб vram должно быть достаточно.

AntonyRF ★★★★
() автор топика
Ответ на: комментарий от AntonyRF

Остальное в ram

если остальное тоже будет во vram, хуже не станет

Сейчас

А потом что будет? К тому же нейронки есть не только для генерации тестов. А если вы свою нейронку захотите обучить или дообучить чужую?

Bad_ptr ★★★★★
()

Подписку возьми за $20, например у того же openai. Я гонял на 5090 huihui_ai/Qwen3.6-abliterated:35b-Claude-4.6-q4_K на 24гб, весьма бодро, но все равно намного медленнее и тупее облака если брать 5.5. Хотя основное конечно у меня 5.3 codex medium, так как 5.5 оверкилл в большинстве случаев. Да еще как не странно, количество памяти не решает и лучше брать модель поменьше доступной памяти.

Установка Ollama + Open WebUI на Ubuntu 26.04 для локальных чатов (комментарий)

Как эксперимент можешь взять конечно что-то такое

anonymous_sama ★★★★★
()

Можно на vast.ai (не знаю как у них с санкциями, но там есть оплата криптой, соответственно, проблем не должно быть) арендовать VM с разными видюхами, погонять разный софт и оценить самому как на твоих use-case с производительностью. А потом принять взвешенное решение. Если что там поминутная тарификация, так что можно гонять виртуалки прям чуть-чуть. Ты уложишься в несколько баксов за много часов тестов, ерунда на фоне стоимости видюхи, зато не ошибёшься.

У всех гоняющих нейронки разные сценарии использования и разные ожидания от выхлопа, так что чужой опыт нерепрезентативен.

KivApple ★★★★★
()
Последнее исправление: KivApple (всего исправлений: 4)
Ответ на: комментарий от KivApple

Вот да, только хотел посоветовать попробовать гонять на процессоре на текущем железе (чтобы понять, то, не то, и надо ли вообще), как вы меня опередили.

tiinn ★★★★★
()
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария