LINUX.ORG.RU

Что взять для нейронок?!

 , , ускорители


2

5

Всем привет!

Таки там говорят OpenSource ИИ стал достаточно бодрым, особенно Qwen a3b. Gemma a4b и вообще там прогресс полным ходом идет. Хотелось бы потыкать это все дело, на текущий момент есть:

  1. Ryzen 7950x
  2. Mobo Aorus EliteAX x670e
  3. ddr5 6000 64gb
  4. NVMe 1tb
  5. 1квт БП

И в качестве видюхи затычка 1060. Что в целом уже выглядит как хорошая база для домашнего ИИ, остается только норм видюху купить.

В идеале повайбкодить бы быстро, не ожидая модель по 15 минут. И вот думаю, как это организовать дешевле. Вижу такие варианты:

  • Взять 3090 или две, но боюсь что они будут медленными
  • Китайская 4090 с 48гб vram - тут не ясно что с надежностью
  • A6000 48гб vram - медленее 4090 и возможно медленее и 3090 и стоит дороговато
  • 5090 32gb - тоже дорого и хватит ли 32?

Подскажите что лучше?

Перемещено maxcom из linux-hardware

★★★★

Последнее исправление: AntonyRF (всего исправлений: 2)
Ответ на: комментарий от Bad_ptr

NVlink для ИИ почти ничего не дает, память не становится общей. Плюс форматов не хватает и тензорных ядер. Две 3090 дадут сильно большую производительность инференса притом ещё и дешевле. Для MoE даже с большим контекстом не нужно 100гигов vram

AntonyRF ★★★★
() автор топика
Ответ на: комментарий от AntonyRF

Две 3090 дадут сильно большую производительность

Какие решения стоит рассмотреть, хочу крутить LLM в домашних условиях очень активно, бюджет 300к

gagarin0
()
Ответ на: комментарий от Bad_ptr

NVlink чуть быстрее позволяет гонять данные между видеокартами. У каждой карты сохраняется свой контроллер и своё адресное пространство и не появляется общей памяти, это все равно перетаскивание между картами данных значительно медленнее, чем в общем адресном пространстве. Плюс софт должен знать, как работать с этим и софт должен распределять слои по разным видеокартам сам. Короче, с v100 получается ситуация, когда у нас быстрый обмен данными с медленными картами, а если мы берём две 3090, то у нас быстрые карты с медленным обменом, но все равно для иишек 3090 получается предпочтительнее.

Upd: кстати у 3090 тоже есть NVlink, тогда у v100 заканчиваются преимущества

AntonyRF ★★★★
() автор топика
Последнее исправление: AntonyRF (всего исправлений: 1)
Ответ на: комментарий от AntonyRF

NVlink чуть быстрее

«чуть»… по сравнению с чем?

софт должен знать, как работать с этим и софт должен распределять слои по разным видеокартам сам

точно?

все равно для иишек 3090 получается предпочтительнее

ну, как знаете

Bad_ptr ★★★★★
()
Ответ на: комментарий от AntonyRF

у 3090 тоже есть NVlink, тогда у v100 заканчиваются преимущества

что в любом случае не отменяет того факта, что мать/проц/ддр тут не сыграют значительной роли
зароляет именно скорость и объём видеопамяти

Но если вам принципиально считать нейронки на CPU, тогда надо выбирать процессор с наиболее большим количеством каналов DDR5 памяти и в каждый канал извольте сунуть плашку

Bad_ptr ★★★★★
()
Ответ на: комментарий от Bad_ptr

Для MoE желательно иметь 64-128 гб быстрой рамы. Там активные параметры и kvcache лежат в vram. Остальное в ram. Сейчас прям большие модели мало кто развивает 70b выглядят более отсталыми чем 35b/27b варианты. Может я конечно не прав, но ощущение такое. А для таких моделей 32-48гб vram должно быть достаточно.

AntonyRF ★★★★
() автор топика
Ответ на: комментарий от AntonyRF

Остальное в ram

если остальное тоже будет во vram, хуже не станет

Сейчас

А потом что будет? К тому же нейронки есть не только для генерации тестов. А если вы свою нейронку захотите обучить или дообучить чужую?

Bad_ptr ★★★★★
()

Подписку возьми за $20, например у того же openai. Я гонял на 5090 huihui_ai/Qwen3.6-abliterated:35b-Claude-4.6-q4_K на 24гб, весьма бодро, но все равно намного медленнее и тупее облака если брать 5.5. Хотя основное конечно у меня 5.3 codex medium, так как 5.5 оверкилл в большинстве случаев. Да еще как не странно, количество памяти не решает и лучше брать модель поменьше доступной памяти.

Установка Ollama + Open WebUI на Ubuntu 26.04 для локальных чатов (комментарий)

Как эксперимент можешь взять конечно что-то такое

anonymous_sama ★★★★★
()

Можно на vast.ai (не знаю как у них с санкциями, но там есть оплата криптой, соответственно, проблем не должно быть) арендовать VM с разными видюхами, погонять разный софт и оценить самому как на твоих use-case с производительностью. А потом принять взвешенное решение. Если что там поминутная тарификация, так что можно гонять виртуалки прям чуть-чуть. Ты уложишься в несколько баксов за много часов тестов, ерунда на фоне стоимости видюхи, зато не ошибёшься.

У всех гоняющих нейронки разные сценарии использования и разные ожидания от выхлопа, так что чужой опыт нерепрезентативен.

KivApple ★★★★★
()
Последнее исправление: KivApple (всего исправлений: 4)
Ответ на: комментарий от KivApple

Вот да, только хотел посоветовать попробовать гонять на процессоре на текущем железе (чтобы понять, то, не то, и надо ли вообще), как вы меня опередили.

tiinn ★★★★★
()

мы взяли два сервера на базе DGX B200

R1 FP8 должна взлететь с огромным запасом по KV кешу

nerve ★★
()

Это все выглядит как попытка взять игровую видеокарту под видом для нейронок. Очередной компьютер для учебы. Видимо своя фантазия хромает и нужны нейронки, потому что видеокарты стоят дорого.

anonymous
()
Ответ на: комментарий от anonymous_sama

Подписку возьми за $20, например у того же openai

Что OpenAI, что Anthropic хотят телефон и российский их не устраивает. Есть какой-то надежный способ это обойти (не через «одноразовые» номера)?

maxcom ★★★★★
()
Ответ на: комментарий от maxcom

Возможно номер у телеграм через fragment купить. Я же делал просто по номеру одной из стран СНГ. Вообще в таком случае наверное проще Kimi какую-нибудь взять, и если покажется тупой уже смотреть в методы обхода.

anonymous_sama ★★★★★
()

Лучше покупать у китайцев подписку на cursor за 20 долларов и по достижению лимитов новую подписку покупать - самый дешёвый и эффективный вариант вайбкодинга.

На авторежиме тебе дадут овердохрена времени - где-то недели полторы круглосуточного вайбкодинга

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от One

Курсор не китайский, а американский же. В любой момент тебе эти лимиты перекроют и отрубят, еще и с оплатой пробелмы.

Китайский это та же Лингма от квена.

LightDiver ★★★★★
()
Ответ на: комментарий от LightDiver

Курсор не китайский, а американский же.

Китайцы массово создают аккаунты под такие дела, оплачивают за тебя, продают тебе месячную подписку Cursor, отдают и логин и почту и аккаунт от почты.

Стоит это богатство на русских площадках 1400-1800 рублей. И не надо париться с оплатами.

Зашёл, аккаунт почты на себя изменил, хрен что отрубят. И пользуешься пока в лимиты не упрешься (обязательно на auto режиме). Под средние задачи этого месяца по подписке PRO за глаза обычному человеку. Под интенсивную нагрузку - закончится за две недели.

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от LightDiver

Курсор не китайский, а американский же. В любой момент тебе эти лимиты перекроют и отрубят, еще и с оплатой пробелмы.

Если риск только в потере части от $20, но норм.

Китайский это та же Лингма от квена.

Я меня есть китайский GLM 5.1 по подписке на OpenCode Go, он довольно неплох. Но хочется еще с моделями OpenAI поиграться, но не платить при этом за токены.

maxcom ★★★★★
()
Ответ на: комментарий от LightDiver

Без всего вот этого вот.

На практике это буквально 30 секунд на покупку и всё. Я даже пароли не меняю от их почт.

Может у меня профессиональная деформация (очень далек от программирования), но удобнее курсора IDE для вайбкодинга не встречал. Он скорее всего для новичков, а не для аксакалов.

One ★★★★★
()
Ответ на: комментарий от maxcom

возьми opencode zen на попробовать gpt, бабки улетают как в трубу но попрбовать то хватати; kimi k2 можно подписаться за 19$ через дружественные банки, неплохо прогает

hizel ★★★★★
()
Ответ на: комментарий от maxcom

Почему бы не использовать DeepSeek? Он умеет работать с API антропика. Можно скачать клавдию и заставить работаеть её через DeepSeek.

anonymous
()
Ответ на: комментарий от maxcom

А оказывается deep seek v4 pro есть у меня в подписке на open code go. Попробую при случае.

maxcom ★★★★★
()
Ответ на: комментарий от qaqa

Достаточно он умный за свои деньги.

Лично для меня есть некоторый порог качества, начиная с которого вообще есть смысл использовать ИИ в разработке. MiniMax и Qwen даже в топовых своих версиях ниже этого уровня, они вместо экономии тратят мое время. Максимум они подходят для простых объемных рефакторингов и прочей автоматизации. Вот GLM 5.1 или Claude Sonnet — другое дело.

maxcom ★★★★★
()

Я пытался запускать qwen3-coder->ollama->qwen-coder agent на rtx 4060 8gb как то слабо получилось. Не дорабатывает, бросает написание скрипта, не тестирует. Похоже всё-таки надо платный аккаунт покупать через соседнюю страну.

jura12 ★★★
()
Ответ на: комментарий от maxcom

Тут видимо сильно от задачи зависит и самое главное - цикла разработки. Они периодически умнеют тупеют раз за разом цикл за циклом. ГПТ, Дипскики (в том числе минимакс), они чуть лучше в алгоритмах, но обычно хуже понимают языки в более специализированно. Квен же чуть хуже в алгоримах, но гораздо лучше разбирается в языках. Но тут сильно зависит от его цикла.

let emp_arr: [i32; 0]; emp_arr = [];
let emp_arr: [i32; 0] = [];
let emp_arr: [0; 0];
let emp_arr = [0u8; 0]; 

Вот спроси у своих какой вариант скомпилируется. Очень редко кто отвечает верно и это хороший тест обычно, что сейчас работать можно. Квен практически единственный, кто частенько отвечает верно. У остальных такого не замечал.

А еще у бесплатного квена до последнего времени было самое широкое контекстное окно и безлимит нормальный. Он мог и по полметра одновременно обработать без глюков.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 1)
Ответ на: комментарий от maxcom

В разработке задачи с разным уровнем сложности. Простые мелкие баги можно даже haiku чинить. Чтобы создать план реализации, лучше брать самую крутую модель и потом проверять/улучшать этот план другой крутой моделью. Тут opus/gpt/glm. Когда план достаточно проработан, можно его спокойно давать модели уровня deepseek-v4.

qaqa ★★
()
Ответ на: комментарий от anonymous

Я думаю, что deepseek-v4-pro не хуже клавдии. Ну, программы он создаёт в нуля вполне достойные.

Создание чего-то «с нуля» это для меня редкая история, чаще приходится копаться в старых проектах с большой кодовой базой, в которых черт ногу сломит. Вот тут разница очень заметна.

maxcom ★★★★★
()
Ответ на: комментарий от qaqa

Чтобы создать план реализации, лучше брать самую крутую модель и потом проверять/улучшать этот план другой крутой моделью.

У меня скорее обратный опыт. Я всегда стартую в plan режиме и тщательно смотрю и комментирую план (кстати рекомендую revdiff для этого). А вот реализацию ожидаю в максимально автономном режиме.

Тот же MiniMax как только встречается с какими-нибудь сложностями, так сначала творит херню, а потом с ней героически борется. Ладно бы он чисто время бы на это тратил, но он еще и умудряется ломать то, чего вообще не просили трогать. Sonnet, к примеру, действует гораздо более аккуратно и его поправлять почти не приходится. Ну и в цикле у него всякой ерунды существенно меньше.

maxcom ★★★★★
()
Последнее исправление: maxcom (всего исправлений: 2)

5090 32gb - тоже дорого и хватит ли 32?

Железо под модель надо выбирать, а гадание на кофейной гуще типа «хватит-не хватит» = выброшенные на ветер деньги.

Byers
()
Ответ на: комментарий от Byers

знающие люди подсказали, выбор остановил на следующей конфигурации:

RTX 4090 на 48GB

Комплект: Материнская плата X99 Dual CPU LGA2011 с процессорами Xeon 2*E5 2680 V4 и памятью 128ГБ

https://aliexpress.ru/item/1005010764079577.html

Итого эта конфигурация позволит локально запустить Qwen 3.6, на практике будет 60 tps, в теории можно получить 90 tps

Стоимость решения ~440-460к рублей

gagarin0
()
Последнее исправление: gagarin0 (всего исправлений: 3)
Ответ на: комментарий от Bad_ptr

И нафига вам два процессора?

так посоветовал знающий человек, подбиралось по принципу дешево и сердито

Может быть лучше посмотреть на AMD Epyc

Есть ссылки на готовые комплектации где купить? мать + cpu + память? или нужно самому подбирать? по моей ссылке на алиэкспресс комплект стоит 73к

gagarin0
()

Прежде чем вваливать дэньги сначала посчитай реальный выхлоп! А поигратся найгрались… ))

anonymous
()

Кмк, если уж смотришь на A6000@48 или 5090@32, то в ту же сумму RTX PRO 4500 Blackwell 32Gb за ~292кР и RTX PRO 5000 Blackwell 48Gb за ~492кР можно взять.

Впрочем, мне таких мощностей перебор: мне хватает Ryzen AI Max+ 395 128Gb.

qa
()
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария