LINUX.ORG.RU

Если вы хотите локального чат-бота, то может хватить и «игрового» компьютера, причем не самого нового. Небольшую модель gpt-j для одного пользователя можно запустить даже на 1050ti.

Leupold_cat ★★★★★
()
Последнее исправление: Leupold_cat (всего исправлений: 1)

Братан, тебе надо более четко задачу сформулировать, может тебе хватит поставить ollama локально и выбрать модельку. А может ты хочешь на миллиардах параметров генерить свою поделку

AntonyRF ★★★★
()
Ответ на: комментарий от zxflux

Это не проблема, это следствие высокой скорости памяти и её типа за 2.5к покупается на 128 гигов оперы, а содимм плашки это шлак

Все равно какая-нибудь старая видяшка на 24 гига будет сильно интереснее в этом отношении. Смысла за этим гоняться нет. Оно интересно только непосредственно самим 128, но это не всем нужно.

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

Я не на столько богат чтобы покупать старую видяшку на 24 гига)))

А бокс от hp закинул в рюкзак с монитором 16 дюймовым и поехал куда глаза глядят) Захотел запитал от автомобиля, всего 150 ватт в пике а сколько у той видюхи и сколько ещё нужно иметь кроме видюхи?

Воооот

zxflux
()
Ответ на: комментарий от zxflux

При таком раскладе проще ноут на том же 395+ брать. :) Ибо юзкейс ну совершенно другой.

А так-то сетап с видяшкой тоже вполне влезает в рюкзак, ибо боксы с окулинком никто не отменял.

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

К боксу ещё не забудь блок питания ватт эдак на 700)))))))))

А ноут на 396 будет в рамках максимум 70ватт задушенный камушек, в любом случае на 70 ваттах он будет адски греться и будет в будущем отвал и деградация как текстолита так и самого кристала

Так что бокс типа hp за свои деньги лучшее решение что можно найти

zxflux
()
Ответ на: комментарий от pekmop1024

При таком раскладе проще ноут на том же 395+ брать

И что на нем вертеть, llama 8b? Потратить 2000+ долларов, чтобы задыхаться уже на моделях весом в 16гб со скоростью 7-10 токенов в секунду?

One ★★★★★
()
Ответ на: комментарий от One

А оно как ни крути примерно столько потратить придется. Да и чего оно задыхаться будет? 3090 не задыхается с 24гб, а эта шняга с уровнем ноутбучной 4060 и 128 - вдруг задохнется?

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

936.2 Гб/с у 3090, 256 Гб/с память у ai 395. При этом пиковая утилизация у выделенной больше.

Берёшь модель весом в 14гб, засовываешь в 3090, 936 / 14 * 70% =46 ожтдаемых токенов в секунду, засовываешь в АМД АИ 256 / 14* 50% = 9 токенов в секунду.

И ты потратил 200 тыс ради этого тормоза вместо 65к на б/у 3090.

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от zxflux

Что мне смотреть? Я пользуюсь и 3090 и 8845hs, поднять всего лишь шину в два-два с половиной раза, это совсем мусорно за оверпрайс. Не будешь ты на AI395 пользоваться моделями выше 14b, если не эстонский тормоз. Куда лучше бесплатным Gemini пользоваться или немного платить за api сверх дозы

Недаром за 10к маки ультра продают для LLM

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от One

Ну Лан купи тогда за 2.5к долларов nvidia dgx spark

Мои потребности удовлетворяла специализированная модель для кода и работала она на Xe 96 eu

А уж 395 покрывать будет если всё таки куплю 500%

Я хз чего вы упёрлись как в маки так в видеокарты…

Может ты ещё и о диффузионных моделях для кода не слышал?)

А они оооочень быстрые если что

Если уж ты сравниваешь свой 8845 зажатый в пакет в 45 ватт

То наверное надо учесть что 395 это 120 ватт ;)

zxflux
()
Ответ на: комментарий от One

Ещё напоминаю что 8845 не имеет бекенда rocm для ml а так же не используется npu от слова совсем!

В новых процах и дравишках данный казус пофиксил и теперь одна часть использует npu другая жирная часть сети использует gpu

Это я в контексте диффузионных моделей там же внутри всё очень интересно ;)

Читай пожалуйста о LLada 2 и вот в интике пощупай ещё https://chat.inceptionlabs.ai

И пожалуйста включи логику и концентрацию чтобы ты мог анализировать ситуацию и по теплопакету и что разные поколения и что разные драйвера и ещё кучу переменных, а не пытаться втулить свои 3090 ссаные)))

zxflux
()
Ответ на: комментарий от zxflux

Эти ватты при узкой памяти будут влиять лишь на пиковую утилизацию памяти.

Для кода (генерации, отладки) локалки с жидкой длиной контекста вообще так себе. Если google ai студио начать пользоваться с длинной в миллион, то домашние LLMки лишь смех вызывают

One ★★★★★
()
Ответ на: комментарий от zxflux

Зачем мне напоминать то, чего нет? Прекрасно и через vulkan работает и через подмену id rocm на gtx1103. NPU вообще не нужен, причём производительность практически упирается в потолок памяти.

Ещё раз - я указанными выше устройствами пользуюсь, когда ты просто онанируешь в теории.

One ★★★★★
()
Последнее исправление: One (всего исправлений: 2)
Ответ на: комментарий от One

Да вот в чем дело, я уже попробовал эти модельки. Изучил работы и тех кто работает над этим. Это к слову китайцы, которые попустят мир llm как недавно дипсик попустил openai и прочих клаудь

Касательно железа, то увы и ах я жду отправок dgx потому что там есть кластеризация и сетевка на 400гбс

zxflux
()
Ответ на: комментарий от Suigintou

NVIDIA RTX PRO 6000 Blackwell Server Edition

CPU: 752 NVIDIA Blackwell Tensor Core; Precisions: FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4
RAM: 96GB GDDR7 ECC; 512-bit; 1.6TB/s
4x DisplayPort 2.1
PCI Express 5.0 x16
Power Connector	1x PCIe CEM5 16-pin
TDP: 600W; Thermal Solution: Passive

Для обучения ИИ важны тензорные ядра и объем памяти GPU.

DLSS4 = 3 * DLSS3

Теперь надо подобрать мать и проц, чтобы тянули несколько таких видях и оперативы добавить быстрой, чтобы данные модели не свопились на диске, а с RAM в VRAM передавалось без задержки…

Предлагается готовая оптимизированная сборка: https://www.nvidia.com/en-eu/data-center/gb300-nvl72/

anonymous
()