LINUX.ORG.RU

LLM на своём компьютере с нуля

 ,


0

1

Какие сейчас есть варианты для того, чтобы поэкспериментировать с LLM на своём компьютере? В том числе чтобы создать свою модель с нуля (даже если она не будет Large)? То есть, чтобы запускать её на своём компьютере, и не использовать сторонние ресурсы?

★★★★

Я без понятия как на LM Studio вообще возможно

создать свою модель с нуля

там же только инференс.

Для создания моделей с нуля изучите фреймворк Pytorch. Это база.

Obezyan
()

Для начала тебе потребуется видеокарта 3060 или новее с VRAM более 6 гигов и оперативки не менее 8 гигов. Или оперативки не менее 16 гигов. Поддержка процессором AVX обязательна, AVX512 — весьма желательна.

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

Пройдёт небольшое время, и огромные вычислительные мощности с необъятными размерами памяти появятся в каждом смартфоне. А учиться настраивать нейросети нужно уже сейчас.

Saakx
()
Ответ на: комментарий от Saakx

Что ты там собрался настраивать, если ключевое - это информация, которой оперирует LLM. В чём смысл этих всех онлайн чатжпт и остальных - это в том, что они весь интернет в себя закачали. А на твоём компьютере что он в себя закачает? 100гб порнофильмов?

bryak ★★★★
()
Последнее исправление: bryak (всего исправлений: 2)
Ответ на: комментарий от bryak

Просто для экспериментов, для понимания возможностей и т.д.

Сейчас нейросети — это сервис, который конечный пользователь не контролирует: ему могут выдавать предвзятую информацию, могут заблокировать доступ по политическим причинам, могут сделать услугу дорогой и т.д. Нейросеть на своём оборудовании, понятно, не может конкурировать с нейросетью крупной корпорации, но там, где это возможно, лучше наверное использовать свою нейросеть.

askh ★★★★
() автор топика
Ответ на: комментарий от askh

Всё, что ты говоришь - правильно. Эти сервисы заточены, чтобы достигать целей, поставленных их фаундерами. Но это не отменяет того, что я сказал

А на твоём компьютере что он в себя закачает?

Как ты собираешься применять LLM, которую ты натренировал датасетами, но которая не имеет никаких данных? Чем она тебе поможет? По документации из /usr/share тебе выдаст какие-то ответы. И насколько это нужно?

bryak ★★★★
()

Что за компьютер? Надо сразу понять возможности и желание.

Допустим у тебя Ryzen 5700x c 32гб памяти и 5060ti 16. (доступный под рукой экземпляр)

Обучение с нуля модели будет доступно для уровня модели TinyLlama с 1.1B за месяц-два. Оно тебе нужно?

Чтобы надеяться на модель 3B нужно уже 24гб и то на таких компьютерах потратить условно полгода.

Дообучение модели даже 7-8b займет всего лишь сутки +/-

А вот просто инференс (запуск) работает практически на любом устройстве (даже недорогие мини-пк ценой в видеокарту офигенно идут на 20+b MoE моделях)

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от tiinn

Почему инференс требует таких чудовищных вычислительных ресурсов?

Потому что вся работа классических нейронных сетей основана на перемножении матриц.

При миллиардах параметров нужно перемножить просто неприличное количество матриц. Мы научились сокращать вычисления, используя KV-кеш для сохранения промежуточных результатов вычислений, но расплатой за это стали огромные объемы потребляемой памяти.

Если говорить о LLM, то тут еще сверху набрасывает сложности механизм внимания (Attention), добавляя квадратичную сложность от количества токенов в окне контекста. Уже появились субквадратичные методы (Flash Attention), но все равно это все очень тяжело по ресурсам.

Я думаю, в течение 5 лет уже появятся первые оптические сопроцессоры, которые будут перемножать матрицы быстрее, чем ядра видеокарт. В основном за счет того, что они не так греются (свет вместо тока в кремнии) и могут работать на частотах в десятки гигагерц. Это даст завершающий пинок развитию классических сетей.

Obezyan
()
Ответ на: комментарий от Obezyan

У меня просто некоторый диссонанс. Какие-нибудь модели 3b я запускаю локально на слабенькой видеокарте. Результат - на тройку с минусом. Gemini на телефоне, что работает на ДЦ Гугла результат выдаёт на пять. Мне большего уже и не надо. Но объём вычислительных ресурсов - больше на несколько порядков. Как так-то?

Больше того, меня не покидают смутные сомнения, что если я возьму топовую видеокарту (лучше, две ;), то и результат получу, сопоставимый с Gemini, только на локалке

tiinn ★★★★★
()
Последнее исправление: tiinn (всего исправлений: 1)
Ответ на: комментарий от Obezyan

в течение 5 лет уже появятся первые оптические сопроцессоры, которые будут перемножать матрицы быстрее, чем ядра видеокарт. В основном за счет того, что они не так греются (свет вместо тока в кремнии) и могут работать на частотах в десятки гигагерц.

Не будет этого. Ещё 30 лет назад про оптические процессоры говорили, и ещё 30 лет говорить будут. Это как термоядерный реактор.

Saakx
()
Ответ на: комментарий от Saakx

Не будет этого. Ещё 30 лет назад про оптические процессоры говорили, и ещё 30 лет говорить будут. Это как термоядерный реактор.

Уже есть работающие прототипы, например, у нас в стране: декабрь 2025, январь 2026.

Вообще, сейчас такое время, что все больше и больше работ «в желез» по нейроморфным процессорам для спайковых сетей и оптическим сопроцессорам появляется в России.

Obezyan
()
Ответ на: комментарий от tiinn

что если я возьму топовую видеокарту (лучше, две ;), то и результат получу, сопоставимый с Gemini

Не получишь.

2*32 = 64, получишь результат сравнимый с oss-120b (быстро) в лучшем случае (ну и всякие близкие модели Llima 70b)

Модели Gemini онлайн имеют триллионы параметров, скорее всего сейчас 3-4 триллиона, то есть в 30 раз больше. Зависимость нелинейная, но в разнице рассуждения очень сильная.

Поэтому думать, рассуждать, писать - тут бесплатный онлайн-Gemini без конкуренции «домашнего AI»

А вот выполнять скрипты, парсить, автоматизировать что-либо, вычислять, тут нужна и достаточна и эффективнее локалка чем запрос по API.

One ★★★★★
()