Что взять для нейронок?!

gpu, искусственный интеллект, ускорители

Всем привет!

Таки там говорят OpenSource ИИ стал достаточно бодрым, особенно Qwen a3b. Gemma a4b и вообще там прогресс полным ходом идет. Хотелось бы потыкать это все дело, на текущий момент есть:

Ryzen 7950x
Mobo Aorus EliteAX x670e
ddr5 6000 64gb
NVMe 1tb
1квт БП

И в качестве видюхи затычка 1060. Что в целом уже выглядит как хорошая база для домашнего ИИ, остается только норм видюху купить.

В идеале повайбкодить бы быстро, не ожидая модель по 15 минут. И вот думаю, как это организовать дешевле. Вижу такие варианты:

Взять 3090 или две, но боюсь что они будут медленными
Китайская 4090 с 48гб vram - тут не ясно что с надежностью
A6000 48гб vram - медленее 4090 и возможно медленее и 3090 и стоит дороговато
5090 32gb - тоже дорого и хватит ли 32?

Подскажите что лучше?

Перемещено maxcom из linux-hardware

← Решение универсальной задачи обоснованного выбора лучшего из двух вариантов. Примеры в Colab

Решение задачи удаления избыточных терминов в заданном контексте без потери информации. Примеры в Colab →

← 1 2 3 →

NvLink на 4 Tesla V100 32Gb
проц/материнка/ддр не имеют значения(на сдачу)

Bad_ptr ★★★★★
(13.05.26 21:13:44 MSK)
Последнее исправление: Bad_ptr 13.05.26 21:15:50 MSK (всего исправлений: 1)

Ответ на: комментарий от Bad_ptr 13.05.26 21:13:44 MSK

NVlink для ИИ почти ничего не дает, память не становится общей. Плюс форматов не хватает и тензорных ядер. Две 3090 дадут сильно большую производительность инференса притом ещё и дешевле. Для MoE даже с большим контекстом не нужно 100гигов vram

AntonyRF ★★★★
(13.05.26 21:37:31 MSK) автор топика

Ответ на: комментарий от AntonyRF 13.05.26 21:37:31 MSK

NVlink для ИИ почти ничего не дает, память не становится общей

эээ а зачем тогда существует NVlink?

Bad_ptr ★★★★★
(13.05.26 21:39:14 MSK)

Ответ на: комментарий от AntonyRF 13.05.26 21:37:31 MSK

Две 3090 дадут сильно большую производительность

Какие решения стоит рассмотреть, хочу крутить LLM в домашних условиях очень активно, бюджет 300к

gagarin0 ★
(13.05.26 21:47:16 MSK)

Ответ на: комментарий от Bad_ptr 13.05.26 21:39:14 MSK

NVlink чуть быстрее позволяет гонять данные между видеокартами. У каждой карты сохраняется свой контроллер и своё адресное пространство и не появляется общей памяти, это все равно перетаскивание между картами данных значительно медленнее, чем в общем адресном пространстве. Плюс софт должен знать, как работать с этим и софт должен распределять слои по разным видеокартам сам. Короче, с v100 получается ситуация, когда у нас быстрый обмен данными с медленными картами, а если мы берём две 3090, то у нас быстрые карты с медленным обменом, но все равно для иишек 3090 получается предпочтительнее.

Upd: кстати у 3090 тоже есть NVlink, тогда у v100 заканчиваются преимущества

AntonyRF ★★★★
(13.05.26 21:48:25 MSK) автор топика
Последнее исправление: AntonyRF 13.05.26 21:51:25 MSK (всего исправлений: 1)

Ответ на: комментарий от gagarin0 13.05.26 21:47:16 MSK

Вот мы тут и пытаемся выяснить))

AntonyRF ★★★★
(13.05.26 21:51:44 MSK) автор топика

Ответ на: комментарий от AntonyRF 13.05.26 21:48:25 MSK

NVlink чуть быстрее

«чуть»… по сравнению с чем?

софт должен знать, как работать с этим и софт должен распределять слои по разным видеокартам сам

точно?

все равно для иишек 3090 получается предпочтительнее

ну, как знаете

Bad_ptr ★★★★★
(13.05.26 21:55:59 MSK)

Ответ на: комментарий от AntonyRF 13.05.26 21:48:25 MSK

у 3090 тоже есть NVlink, тогда у v100 заканчиваются преимущества

что в любом случае не отменяет того факта, что мать/проц/ддр тут не сыграют значительной роли
зароляет именно скорость и объём видеопамяти

Но если вам принципиально считать нейронки на CPU, тогда надо выбирать процессор с наиболее большим количеством каналов DDR5 памяти и в каждый канал извольте сунуть плашку

Bad_ptr ★★★★★
(13.05.26 22:00:58 MSK)

Ответ на: комментарий от Bad_ptr 13.05.26 22:00:58 MSK

Для MoE желательно иметь 64-128 гб быстрой рамы. Там активные параметры и kvcache лежат в vram. Остальное в ram. Сейчас прям большие модели мало кто развивает 70b выглядят более отсталыми чем 35b/27b варианты. Может я конечно не прав, но ощущение такое. А для таких моделей 32-48гб vram должно быть достаточно.

AntonyRF ★★★★
(13.05.26 22:22:54 MSK) автор топика

Ответ на: комментарий от AntonyRF 13.05.26 22:22:54 MSK

Ну тогда intel 270k plus и память побыстрее З.ы. память двумя модулями

cobold ★★★★★
(13.05.26 22:26:45 MSK)
Последнее исправление: cobold 13.05.26 22:29:16 MSK (всего исправлений: 1)

Ответ на: комментарий от AntonyRF 13.05.26 22:22:54 MSK

Остальное в ram

если остальное тоже будет во vram, хуже не станет

Сейчас

А потом что будет? К тому же нейронки есть не только для генерации тестов. А если вы свою нейронку захотите обучить или дообучить чужую?

Bad_ptr ★★★★★
(13.05.26 22:35:12 MSK)

Подписку возьми за $20, например у того же openai. Я гонял на 5090 huihui_ai/Qwen3.6-abliterated:35b-Claude-4.6-q4_K на 24гб, весьма бодро, но все равно намного медленнее и тупее облака если брать 5.5. Хотя основное конечно у меня 5.3 codex medium, так как 5.5 оверкилл в большинстве случаев. Да еще как не странно, количество памяти не решает и лучше брать модель поменьше доступной памяти.

Установка Ollama + Open WebUI на Ubuntu 26.04 для локальных чатов (комментарий)

Как эксперимент можешь взять конечно что-то такое

anonymous_sama ★★★★★
(14.05.26 00:13:37 MSK)

Можно на vast.ai (не знаю как у них с санкциями, но там есть оплата криптой, соответственно, проблем не должно быть) арендовать VM с разными видюхами, погонять разный софт и оценить самому как на твоих use-case с производительностью. А потом принять взвешенное решение. Если что там поминутная тарификация, так что можно гонять виртуалки прям чуть-чуть. Ты уложишься в несколько баксов за много часов тестов, ерунда на фоне стоимости видюхи, зато не ошибёшься.

У всех гоняющих нейронки разные сценарии использования и разные ожидания от выхлопа, так что чужой опыт нерепрезентативен.

KivApple ★★★★★
(14.05.26 00:42:47 MSK)
Последнее исправление: KivApple 14.05.26 00:46:53 MSK (всего исправлений: 4)

Ответ на: комментарий от KivApple 14.05.26 00:42:47 MSK

Вот да, только хотел посоветовать попробовать гонять на процессоре на текущем железе (чтобы понять, то, не то, и надо ли вообще), как вы меня опередили.

tiinn ★★★★★
(15.05.26 16:08:05 MSK)

мы взяли два сервера на базе DGX B200

R1 FP8 должна взлететь с огромным запасом по KV кешу

nerve ★★
(15.05.26 23:30:07 MSK)

Недавно вот такая штука пролетала на hacker news: https://github.com/Andyyyy64/whichllm. Можно оценить, что на какой карте как работает.

maxcom ★★★★★
(15.05.26 23:38:58 MSK)

Это все выглядит как попытка взять игровую видеокарту под видом для нейронок. Очередной компьютер для учебы. Видимо своя фантазия хромает и нужны нейронки, потому что видеокарты стоят дорого.

anonymous
(16.05.26 09:57:47 MSK)

Ответ на: комментарий от anonymous_sama 14.05.26 00:13:37 MSK

Подписку возьми за $20, например у того же openai

Что OpenAI, что Anthropic хотят телефон и российский их не устраивает. Есть какой-то надежный способ это обойти (не через «одноразовые» номера)?

maxcom ★★★★★
(16.05.26 10:26:16 MSK)

Ответ на: комментарий от maxcom 16.05.26 10:26:16 MSK

Возможно номер у телеграм через fragment купить. Я же делал просто по номеру одной из стран СНГ. Вообще в таком случае наверное проще Kimi какую-нибудь взять, и если покажется тупой уже смотреть в методы обхода.

anonymous_sama ★★★★★
(16.05.26 13:05:01 MSK)

Лучше покупать у китайцев подписку на cursor за 20 долларов и по достижению лимитов новую подписку покупать - самый дешёвый и эффективный вариант вайбкодинга.

На авторежиме тебе дадут овердохрена времени - где-то недели полторы круглосуточного вайбкодинга

~~One~~ ★★★★★
(16.05.26 13:21:32 MSK)
Последнее исправление: One 16.05.26 13:23:05 MSK (всего исправлений: 1)

Ответ на: комментарий от One 16.05.26 13:21:32 MSK

Курсор не китайский, а американский же. В любой момент тебе эти лимиты перекроют и отрубят, еще и с оплатой пробелмы.

Китайский это та же Лингма от квена.

LightDiver ★★★★★
(16.05.26 13:27:26 MSK)

Ответ на: комментарий от LightDiver 16.05.26 13:27:26 MSK

Курсор не китайский, а американский же.

Китайцы массово создают аккаунты под такие дела, оплачивают за тебя, продают тебе месячную подписку Cursor, отдают и логин и почту и аккаунт от почты.

Стоит это богатство на русских площадках 1400-1800 рублей. И не надо париться с оплатами.

Зашёл, аккаунт почты на себя изменил, хрен что отрубят. И пользуешься пока в лимиты не упрешься (обязательно на auto режиме). Под средние задачи этого месяца по подписке PRO за глаза обычному человеку. Под интенсивную нагрузку - закончится за две недели.

~~One~~ ★★★★★
(16.05.26 13:31:57 MSK)
Последнее исправление: One 16.05.26 13:32:27 MSK (всего исправлений: 1)

Ответ на: комментарий от One 16.05.26 13:31:57 MSK

Ну хрен знает, проще лингму заюзать. Без всего вот этого вот.

LightDiver ★★★★★
(16.05.26 13:32:42 MSK)

Ответ на: комментарий от anonymous 16.05.26 09:57:47 MSK

Минусы?

LongLiveUbuntu ★★★★★
(16.05.26 13:55:25 MSK)

Ответ на: комментарий от LightDiver 16.05.26 13:27:26 MSK

Курсор не китайский, а американский же. В любой момент тебе эти лимиты перекроют и отрубят, еще и с оплатой пробелмы.

Если риск только в потере части от $20, но норм.

Китайский это та же Лингма от квена.

Я меня есть китайский GLM 5.1 по подписке на OpenCode Go, он довольно неплох. Но хочется еще с моделями OpenAI поиграться, но не платить при этом за токены.

maxcom ★★★★★
(16.05.26 13:55:44 MSK)

Ответ на: комментарий от LightDiver 16.05.26 13:32:42 MSK

Без всего вот этого вот.

На практике это буквально 30 секунд на покупку и всё. Я даже пароли не меняю от их почт.

Может у меня профессиональная деформация (очень далек от программирования), но удобнее курсора IDE для вайбкодинга не встречал. Он скорее всего для новичков, а не для аксакалов.

~~One~~ ★★★★★
(16.05.26 15:08:16 MSK)

Ответ на: комментарий от One 16.05.26 15:08:16 MSK

Попробуй лингму. То же самое, но с квеном, вместо чатгпт.

LightDiver ★★★★★
(16.05.26 15:12:14 MSK)

Ответ на: комментарий от LightDiver 16.05.26 15:12:14 MSK

Спасибо. Попробую.

~~One~~ ★★★★★
(16.05.26 16:38:56 MSK)

Ответ на: комментарий от maxcom 16.05.26 13:55:44 MSK

возьми opencode zen на попробовать gpt, бабки улетают как в трубу но попрбовать то хватати; kimi k2 можно подписаться за 19$ через дружественные банки, неплохо прогает

hizel ★★★★★
(16.05.26 17:21:16 MSK)

Ответ на: комментарий от maxcom 16.05.26 10:26:16 MSK

Почему бы не использовать DeepSeek? Он умеет работать с API антропика. Можно скачать клавдию и заставить работаеть её через DeepSeek.

anonymous
(16.05.26 17:25:50 MSK)

Ответ на: комментарий от anonymous 16.05.26 17:25:50 MSK

Он вроде не особо умный, зачем?

maxcom ★★★★★
(16.05.26 18:14:34 MSK)

Ответ на: комментарий от maxcom 16.05.26 18:14:34 MSK

А оказывается deep seek v4 pro есть у меня в подписке на open code go. Попробую при случае.

maxcom ★★★★★
(16.05.26 18:55:15 MSK)

Ответ на: комментарий от maxcom 16.05.26 18:14:34 MSK

Достаточно он умный за свои деньги.

qaqa ★★
(16.05.26 19:03:48 MSK)

Ответ на: комментарий от qaqa 16.05.26 19:03:48 MSK

Достаточно он умный за свои деньги.

Лично для меня есть некоторый порог качества, начиная с которого вообще есть смысл использовать ИИ в разработке. MiniMax и Qwen даже в топовых своих версиях ниже этого уровня, они вместо экономии тратят мое время. Максимум они подходят для простых объемных рефакторингов и прочей автоматизации. Вот GLM 5.1 или Claude Sonnet — другое дело.

maxcom ★★★★★
(16.05.26 19:50:57 MSK)

Ответ на: комментарий от maxcom 16.05.26 18:14:34 MSK

Он вроде не особо умный, зачем?

вполне умный. Я им вайбкожу.

anonymous
(16.05.26 22:12:13 MSK)

Ответ на: комментарий от maxcom 16.05.26 19:50:57 MSK

Я думаю, что deepseek-v4-pro не хуже клавдии. Ну, программы он создаёт в нуля вполне достойные. Я его подключил прямо в claude code cli

anonymous
(16.05.26 22:13:53 MSK)

Я пытался запускать qwen3-coder->ollama->qwen-coder agent на rtx 4060 8gb как то слабо получилось. Не дорабатывает, бросает написание скрипта, не тестирует. Похоже всё-таки надо платный аккаунт покупать через соседнюю страну.

jura12 ★★★
(16.05.26 23:07:41 MSK)

Бери две Intel Arc Pro B70.

exception13 ★★★★★
(16.05.26 23:15:14 MSK)

Ответ на: комментарий от maxcom 16.05.26 19:50:57 MSK

Тут видимо сильно от задачи зависит и самое главное - цикла разработки. Они периодически умнеют тупеют раз за разом цикл за циклом. ГПТ, Дипскики (в том числе минимакс), они чуть лучше в алгоритмах, но обычно хуже понимают языки в более специализированно. Квен же чуть хуже в алгоримах, но гораздо лучше разбирается в языках. Но тут сильно зависит от его цикла.

let emp_arr: [i32; 0]; emp_arr = [];
let emp_arr: [i32; 0] = [];
let emp_arr: [0; 0];
let emp_arr = [0u8; 0];

Вот спроси у своих какой вариант скомпилируется. Очень редко кто отвечает верно и это хороший тест обычно, что сейчас работать можно. Квен практически единственный, кто частенько отвечает верно. У остальных такого не замечал.

А еще у бесплатного квена до последнего времени было самое широкое контекстное окно и безлимит нормальный. Он мог и по полметра одновременно обработать без глюков.

LightDiver ★★★★★
(17.05.26 08:16:58 MSK)
Последнее исправление: LightDiver 17.05.26 08:18:18 MSK (всего исправлений: 1)

Ответ на: комментарий от maxcom 16.05.26 19:50:57 MSK

В разработке задачи с разным уровнем сложности. Простые мелкие баги можно даже haiku чинить. Чтобы создать план реализации, лучше брать самую крутую модель и потом проверять/улучшать этот план другой крутой моделью. Тут opus/gpt/glm. Когда план достаточно проработан, можно его спокойно давать модели уровня deepseek-v4.

qaqa ★★
(17.05.26 10:27:23 MSK)

Ответ на: комментарий от anonymous 16.05.26 22:13:53 MSK

Я думаю, что deepseek-v4-pro не хуже клавдии. Ну, программы он создаёт в нуля вполне достойные.

Создание чего-то «с нуля» это для меня редкая история, чаще приходится копаться в старых проектах с большой кодовой базой, в которых черт ногу сломит. Вот тут разница очень заметна.

maxcom ★★★★★
(17.05.26 10:33:39 MSK)

Ответ на: комментарий от qaqa 17.05.26 10:27:23 MSK

Чтобы создать план реализации, лучше брать самую крутую модель и потом проверять/улучшать этот план другой крутой моделью.

У меня скорее обратный опыт. Я всегда стартую в plan режиме и тщательно смотрю и комментирую план (кстати рекомендую revdiff для этого). А вот реализацию ожидаю в максимально автономном режиме.

Тот же MiniMax как только встречается с какими-нибудь сложностями, так сначала творит херню, а потом с ней героически борется. Ладно бы он чисто время бы на это тратил, но он еще и умудряется ломать то, чего вообще не просили трогать. Sonnet, к примеру, действует гораздо более аккуратно и его поправлять почти не приходится. Ну и в цикле у него всякой ерунды существенно меньше.

maxcom ★★★★★
(17.05.26 10:38:11 MSK)
Последнее исправление: maxcom 17.05.26 10:38:50 MSK (всего исправлений: 2)

5090 32gb - тоже дорого и хватит ли 32?

Железо под модель надо выбирать, а гадание на кофейной гуще типа «хватит-не хватит» = выброшенные на ветер деньги.

Byers
(17.05.26 10:50:57 MSK)

Ответ на: комментарий от Byers 17.05.26 10:50:57 MSK

знающие люди подсказали, выбор остановил на следующей конфигурации:

RTX 4090 на 48GB

Комплект: Материнская плата X99 Dual CPU LGA2011 с процессорами Xeon 2*E5 2680 V4 и памятью 128ГБ

https://aliexpress.ru/item/1005010764079577.html

Итого эта конфигурация позволит локально запустить Qwen 3.6, на практике будет 60 tps, в теории можно получить 90 tps

Стоимость решения ~440-460к рублей

gagarin0 ★
(17.05.26 10:59:06 MSK)
Последнее исправление: gagarin0 17.05.26 11:04:51 MSK (всего исправлений: 3)

Ответ на: комментарий от gagarin0 17.05.26 10:59:06 MSK

Материнская плата X99 Dual CPU LGA2011

И нафига вам два процессора?

Может быть лучше посмотреть на AMD Epyc

Bad_ptr ★★★★★
(17.05.26 12:19:33 MSK)

Ответ на: комментарий от Bad_ptr 17.05.26 12:19:33 MSK

И нафига вам два процессора?

так посоветовал знающий человек, подбиралось по принципу дешево и сердито

Может быть лучше посмотреть на AMD Epyc

Есть ссылки на готовые комплектации где купить? мать + cpu + память? или нужно самому подбирать? по моей ссылке на алиэкспресс комплект стоит 73к

gagarin0 ★
(17.05.26 12:43:40 MSK)

Ответ на: комментарий от gagarin0 17.05.26 10:59:06 MSK

Материнская плата X99

Не доверяю я им в плане надежности работы.

frunobulax ★★★★
(17.05.26 12:54:29 MSK)

Прежде чем вваливать дэньги сначала посчитай реальный выхлоп! А поигратся найгрались… ))

anonymous
(17.05.26 12:58:46 MSK)

Кмк, если уж смотришь на A6000@48 или 5090@32, то в ту же сумму RTX PRO 4500 Blackwell 32Gb за ~292кР и RTX PRO 5000 Blackwell 48Gb за ~492кР можно взять.

Впрочем, мне таких мощностей перебор: мне хватает Ryzen AI Max+ 395 128Gb.

qa
(17.05.26 13:13:39 MSK)