Десктопный текстовый LLM

0

1

Есть RTX3060 12ГБ. Есть ли в данный момент возможность на такую конфигурацию поставить standalone текстовый LLM? Чтобы хотя б на уровне ChatGPT 3.5 тупило (или лучше).

Параллельно вопрос - а контекст в такое-то количество токенов - это тоже какое-то фундаментальное ограничение? Нельзя его поставить больше? А то кидаешь кусками произведения для анализа, так оно начало забывает и делает мне смешно.

←	Как я могу узнать отправляемые пакеты?

MOC пятая позиция

→

Конечно, даже лучше есть. Qwen какая-нибудь или та же Llama 3. Компилируешь llama.cpp, подбираешь соотв. gguf и кванизацию, чтобы в память влазила и вперёд. На их гитхабе есть вся инфа.

GPT 3.5 — это уже прошлый век.

stabilitron
(25.10.24 16:39:43 MSK)

Ответ на: комментарий от stabilitron 25.10.24 16:39:43 MSK

llama чтобы получить их модель потребовала все мои данные, место работы, анализ мочи и кала. Я что-то делаю не так?

PPP328 ★★★★★
(25.10.24 17:07:38 MSK) автор топика

Ответ на: комментарий от PPP328 25.10.24 17:07:38 MSK

https://github.com/akx/ollama-dl?

dataman ★★★★★
(25.10.24 17:14:36 MSK)

Ответ на: комментарий от PPP328 25.10.24 17:07:38 MSK

Зайди на huggingface.co и поищи llama guf. Там есть кванты от разных авторов, без смс и регистрации.

Вот эту посмотри, должна влезть в твою карточку: https://huggingface.co/Qwen/Qwen2.5-14B-Instruct-GGUF, если выбрать 6 или 5-битную версию.

stabilitron
(25.10.24 17:39:48 MSK)

Ответ на: комментарий от PPP328 25.10.24 17:07:38 MSK

https://huggingface.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF

stabilitron
(25.10.24 17:43:58 MSK)

https://ollama.com/

cocucka_B_TECTE ☆
(25.10.24 18:03:15 MSK)

Ответ на: комментарий от PPP328 25.10.24 17:07:38 MSK

Поставь олламу, там полно моделей без регистрации. ollama run llama3.2:1b и усё.

cocucka_B_TECTE ☆
(25.10.24 18:05:31 MSK)

Ставишь lmstudio и из его интерфейса качаешь нужное. Это самый простой способ.

einhander ★★★★★
(25.10.24 18:07:22 MSK)

Параллельно вопрос - а контекст в такое-то количество токенов - это тоже какое-то фундаментальное ограничение? Нельзя его поставить больше? А то кидаешь кусками произведения для анализа, так оно начало забывает и делает мне смешно.

Контекст — это другое название предельной (точнее, единственной) длины входной последовательности.

С большой вероятностью, начиная с какой-то длины входных последовательностей существующие архитектуры моделей перестают работать, т.е. фундаментальное ограничение скорее всего тоже есть, но дело не в этом. Её можно «поставить больше», но фишка в том, что под каждую длину последовательности сеть нужно обучать заново (совсем, вообще) с нуля. Ну а это сам понимаешь. (И весить такая модель тоже будет ровно в столько же раз больше.)

intelfx ★★★★★
(25.10.24 18:17:52 MSK)
Последнее исправление: intelfx 25.10.24 18:23:38 MSK (всего исправлений: 1)

←	Как я могу узнать отправляемые пакеты?

Desktop

MOC пятая позиция

→

Похожие темы