LINUX.ORG.RU

БомжИИ

 


2

3

Продолжение темы, на тесте в которой стало ясно, насколько неприлично слаб ноут для нейронки, покупать дорогой комп не хочется, что скажете о такой бомж-сборке (онли линукс) для llama-мозгов 15b (или выше, в зависимости, насколько оживленно будет думать):

Cpu: Xeon E3-1245 V3
Gpu: GeForce P106-100
Mother: MACHINIST H81M-PRO S1
Ram: ddr3 8gb x 2
Ssd: m2 256gb
Все барахло кроме матери и ссдюка планируется купить на авито. Что посоветуете иное (кроме как купить ламборгини для поездок на огород)?



Последнее исправление: skidphysic (всего исправлений: 1)

покупать дорогой комп не хочется

Это так не работает.

llama-мозгов 15b

Все эти 16b/q2 - это буквально ДНО, не заслуживающее внимания.

Сейчас 2025 год, если у тебя нет хотя бы RTX3060, 64GB RAM и 8x CPU то ты в заднице по возможностям локально гонять LLM с приемлимым результатом и проще юзать бесплатные аналоги в интернете или бесплатные API с лимитами, как тебе озвучили в прошлом треде.

XOXO
()
Ответ на: комментарий от XOXO

то ты в заднице по возможностям локально гонять LLM с приемлимым результатом

Смотря что считать приемлимым результатом. Я гоняю 9b llama с 5-битным квантованием на cpu и результатом в целом доволен. Хотя для кого-то наверное это жутко медленно.

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

результатом в целом доволен

на cpu

llama 9b/q5

Ну что тут скажешь… Амиши тоже довольны результатом своей деятельности, своими примитивными орудиями труда и упряжками лошадей вместо пикапа, комбайна и трактора. «Довольность» - это субъективный показатель.

Мне странно другое, сейчас конплюкхтер с хотя бы RTX3060, 64GB RAM и 8x CPU стоит менее 100к рублей, железо никогда еще не было таким доступным, но уже позволит так не страдать с LLM.

XOXO
()
Последнее исправление: XOXO (всего исправлений: 1)
Ответ на: комментарий от XOXO

гонять LLM с приемлимым результатом

Ожидание генерации до 10 минут на запрос мне подходит, главное, что бы рерайт (основная цель это рерайт текстов до 3 тысяч символов на запрос) был более-менее не глючным. Сторонние сервисы не рассматриваю, хочу свое да и покопаться в теме интересно.

skidphysic
() автор топика
Ответ на: комментарий от XOXO

Сейчас 2025 год

железо никогда еще не было таким доступным

Не, точно палишься. Вернись обратно в своё время

И я очень надеюсь, что эта наша вероятностная линия :)

router ★★★★★
()
Ответ на: комментарий от XOXO

стоит менее 100к рублей

Если бы они у меня были, тем с дешевым железом я бы не создавал :D

skidphysic
() автор топика
Ответ на: комментарий от skidphysic

основная цель это рерайт текстов до 3 тысяч символов на запрос был более-менее не глючным.

Если текст русскоязычный, то я заранее хочу тебя огорчить

XOXO
()
Ответ на: комментарий от skidphysic

Иностранные llm на русскоязычных текстах целенаправленно не тренируют, результат будет плохой. Нужна «местная» модель, а их не так чтобы много дают погонять локально. Во всяком случае, без регистрации и СМС.

Khnazile ★★★★★
()

Что посоветуете иное

Забить и не тратить время и деньги на этот хайп-трейн

Kolins ★★★★★
()
Ответ на: комментарий от XOXO

Это с gpu надо страдать. Когда на десктоп завезут SR-IOV, тогда можно будет рассуждать о доступности.

Khnazile ★★★★★
()
Ответ на: комментарий от router

И я очень надеюсь, что эта наша вероятностная линия :)

На декабрь 2024 это объективный факт. Давай вместе посчитаем:

AMD Ryzen 7 7700 (8core) ~28к

RTX 3060 ~40к

2x32GB Patriot Viper Elite II ~14k

Итого: 82к, на сдачу плата\куллер\ssd

XOXO
()
Ответ на: комментарий от XOXO

на сдачу плата\куллер\ssd

Большое заблуждение. Вcя это мелочь стоит не мало в сумме, дкмаю, что вся сдача уйдёт на блок питания и ssd, а кулер, ящик, и минимальный набор переферии придётся искать на помойке.

Khnazile ★★★★★
()
Последнее исправление: Khnazile (всего исправлений: 1)
Ответ на: комментарий от XOXO

Сейчас 24 год и основное требование - хотя бы 24Gb VRAM от nvidia с cuda ядрами потому что 15B без квантизации в 16Gb VRAM обычно не влезает. Все остальное вообще не важно, любая комплектуха пятилетней давности подойдет.

Obezyan
()
Ответ на: комментарий от olelookoe

Извините, но это полная херня, про «народную» RTX A4000 16Gb и оптимальную RTX A5000 24Gb вообще ни слова. Ну хоть про RTX A6000 упомянул, напутано в деталях ранжировки карт и в вариантах сборок из двух и более. Детально разбирать даже смысла не вижу.

Это не справочник, а сборная солянка гуглежа пропущенная через сеть, итоговое качество такое же как на картинке в начале статьи: вроде красиво пока не вчитываешься.

Obezyan
()
Ответ на: комментарий от Obezyan

Сейчас 24 год и основное требование - хотя бы 24Gb VRAM от nvidia с cuda ядрами потому что 15B без квантизации в 16Gb VRAM обычно не влезает.

Согласен, но речь шла о бомж-машине, поэтому был предложен RTX3060 c 12GB VRAM как минимально возможный сетап

XOXO
()
Ответ на: комментарий от XOXO

Согласен, но речь шла о бомж-машине, поэтому был предложен RTX3060 c 12GB VRAM как минимально возможный сетап

На самом деле тут интересный вопрос что будет лучше: видеокарта с 12Gb на которой можно использовать только модели с сильной квантизаций или современный процессор + BitNet.cpp/Llama.cpp? Я не знаю если честно ответа.

Obezyan
()
Ответ на: комментарий от Obezyan

Извините, но это полная херня

железосрач поддержать желания нет, все претензии к автору
в целом +- километр он со своей задачей справился
по крайней мере этот текст отсекает авантюры типа «да нахера нам эти гигабайты, возьмем интел ай3, на встройке будет норм» и заставляет задумаццо о гораздо более адекватных бюджетах

olelookoe ★★★
()
Ответ на: комментарий от Obezyan

А если несколько видеокарт подключить, чтобы суммарно было не меньше 24Gb VRAM? Так прокатит? Две 3060 стоят намного дешевле чем одна 4090.

vbcnthfkmnth123 ★★★★★
()
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Так прокатит?

Да, разумеется. ollama из коробки с этим работает.

А вот для llama.cpp есть кроме того даже экспериментальная возможность RPC распределить задачи по нескольким машинам.

А вот тут есть подробно описанная саццес-стори применения RPC

XOXO
()
Ответ на: комментарий от Obezyan

или современный процессор + BitNet.cpp/Llama.cpp

Здесь большой интерес представляют новые Apple Silicon M3\M4 и их возможности по shared-VRAM

XOXO
()
Ответ на: комментарий от olelookoe

железосрач поддержать желания нет, все претензии к автору

Я ни в коем случае не имел претензий к вам, просто указал что не стоит руководствоваться этим «справочником».

в целом +- километр он со своей задачей справился

ну, если мерять в километрах, то соглашусь.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Для большинства архитектур сетей - вполне себе вариант для использования, но бывают проблемы при создании/обучении.

Obezyan
()
Ответ на: комментарий от XOXO

Здесь большой интерес представляют новые Apple Silicon M3\M4 и их возможности по shared-VRAM

Вообще не копал в эту сторону, было бы интересно послушать тех кто сталкивался.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)

GeForce P106-100 если как то объединить 3 такие. Может норм будет, но это надо матчасть изучать.

user1087
()
Ответ на: комментарий от anonymous

И нервов на их использование. Сколько этих моделек не пробовал, все бесполезные.

anonymous
()
Ответ на: комментарий от skidphysic

Не сомневаюсь, что если тебя поставить перед выбором стать проститутом или чинить трубы, то трубы ты не чинил бы.

anonymous
()

llama

Бесполезное говно

anonymous
()
Ответ на: комментарий от anonymous

Наверняка, ты один из тех радикалов, кто во времена «рекламной сети яндекса с гуглом» рекламу не покупает, а считает, что хороший продукт в рекламе не нуждается?

skidphysic
() автор топика
Ответ на: комментарий от skidphysic

Действительно хороший продукт действительно не нуждается в рекламе. Тем более от «этих» компаний.

anonymous
()
Ответ на: комментарий от anonymous

«Если бы у меня было 4 доллара, 3 я потратил бы на рекламу.» (с) Генри Форд. Но, можно впасть в радикализм и бороться с ветряными мельницами до пенсии.

skidphysic
() автор топика
Последнее исправление: skidphysic (всего исправлений: 1)
Ответ на: комментарий от skidphysic

Но, можно впасть в радикализм и бороться с ветряными мельницами до пенсии.

Лучше

СПОНСОР ЭТОГО КОММЕНТАРИЯ АССЕНИЗАТОРСКИЕ УСЛУГИ! БЫСТРО! КАЧЕСТВЕННО! НЕДОРОГО!

впасть

СПОНСОР ЭТОГО КОММЕНТАРИЯ НАТЯЖНЫЙ ПОТОЛКИ ОТ ДЯДИ ТОЛИЙ! НАТЯНЕМ ПО САМЫЙ ПОТОЛОК!

в

СПОНСОР ЭТОГО КОММЕНТАРИЯ ОЧЕРЕДНАЯ КАКАЯ-НИБУДЬ ХЕРНЯ! НУ КУПИ ПЖЛ!

радикализм, чем просто наблюдать и спонсировать капрофилию на лицо.

anonymous
()
Ответ на: комментарий от Obezyan

ИИ для генерации картинок (Stable Diffusion) умеют же уже частично держать в обычной, частично в видео, и работать с небольшими кусками видеопамяти, и на 8 - 12 Гб уже вполне с приличной скоростью получается. Текстовые так не умеют?

anonymous
()

Я бы подождал января и Intel Arc B580 и B570, по слайдикам у Интел очень мощный, но бюджетный AI получился, куда быстрее 4060 и за 25к, да ещё с минимально нужной памятью, в 12гб

One ★★★★★
()
Ответ на: комментарий от anonymous

Текстовые так не умеют?

Насколько я помню, нет. Разные архитектуры, текстовые это LSTM/Transformers в основном, картинки это Diffusers.

Obezyan
()
Ответ на: комментарий от Obezyan

Вообще не копал в эту сторону, было бы интересно послушать тех кто сталкивался.

Сегодня погонял MacBook M3 Pro c 18Gb ollama-benchmark, для тех размерностей сеток, что он сам подгружает на основе размера RAM:


----------Apple Mac---------
{
    "system": "Darwin",
    "memory": 18.0,
    "cpu": "Apple M3 Pro",
    "gpu": "Apple M3 Pro",
    "os_version": "macOS 15.0.1 (24A348)",
    "system_name": "macOS",
    "model": "Mac15,7",
}


{
    "mistral:7b": "28.51",
    "llama3.1:8b": "24.81",
    "phi3:3.8b": "43.66",
    "qwen2:7b": "28.03",
    "gemma2:9b": "21.04",
    "llava:7b": "29.19",
    "llava:13b": "16.57",
    "ollama_version": "0.4.7"
}

Хочу отметить что это очень неплохой результат для ноута, на машиных с 32Gb и 64Gb и M3 Max будет еще кратно лучше, так что перспективы есть.

XOXO
()
Ответ на: комментарий от XOXO

это очень неплохой

Офигенный это результат, на уровне очень комфортного использования LLM для личных целей

One ★★★★★
()
Ответ на: комментарий от XOXO

Спасибо за информацию. Обычно я использую 15B сети без квантизации, но и для 7-8B это хороший результат.

Obezyan
()
Ответ на: комментарий от XOXO

Попробовал так же codestarl 22B размера c квантизацией, включив --verbose,

промт: «Write simple and fast function for clalculate factorial in Go»:

Q4, размер модели 12 GB:

total duration:       25.292387042s
load duration:        13.215375ms
prompt eval count:    18 token(s)
prompt eval duration: 1.496s
prompt eval rate:     12.03 tokens/s
eval count:           228 token(s)
eval duration:        23.78s
eval rate:            9.59 tokens/s

Что тоже вполне неплохо, жить можно.

XOXO
()
Ответ на: комментарий от XOXO

Сейчас 2025 год, если у тебя нет хотя бы RTX3060

Да ты чо, RTX 3060 Ti не хватит с его 8ю гигами, нужна видюха за $2000 где будет 24 Гб. Почему? Да, потому что всю модель ясное дело будет грузиться в VRAM. Тоже самое с другими нейронками: Stable Diffusion и т.д.

Skullnet ★★★★★
()
Последнее исправление: Skullnet (всего исправлений: 1)
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.