LLM на своём компьютере с нуля

0

1

Какие сейчас есть варианты для того, чтобы поэкспериментировать с LLM на своём компьютере? В том числе чтобы создать свою модель с нуля (даже если она не будет Large)? То есть, чтобы запускать её на своём компьютере, и не использовать сторонние ресурсы?

←	Какой дистрибутив поставить для работы?

Яндекс.Диск закэшировал мой хомяк?

→

LM Studio и изучай, что он там тебе предлагает, и что потянет твой калькулятор.

Zhbert ★★★★★
(05.02.26 15:33:33 MSK)

LM Studio

masa ★★★
(05.02.26 15:46:16 MSK)

Я без понятия как на LM Studio вообще возможно

создать свою модель с нуля

там же только инференс.

Для создания моделей с нуля изучите фреймворк Pytorch. Это база.

Obezyan ☆
(05.02.26 15:56:45 MSK)

Для начала тебе потребуется видеокарта 3060 или новее с VRAM более 6 гигов и оперативки не менее 8 гигов. Или оперативки не менее 16 гигов. Поддержка процессором AVX обязательна, AVX512 — весьма желательна.

mord0d ★★★★★
(05.02.26 15:58:07 MSK)

Ответ на: комментарий от mord0d 05.02.26 15:58:07 MSK

Да ну, на проце всякие квены даже 14-20b генерят по 10-15 tks что на поиграться достаточно.

masa ★★★
(05.02.26 16:03:58 MSK)
Последнее исправление: masa 05.02.26 16:04:10 MSK (всего исправлений: 1)

Ответ на: комментарий от masa 05.02.26 16:03:58 MSK

Это опять же инференс

cobold ★★★★★
(05.02.26 16:12:07 MSK)

Ответ на: комментарий от masa 05.02.26 16:03:58 MSK

Речь о тренировке, а не генерации, разупорись.

mord0d ★★★★★
(05.02.26 16:12:53 MSK)

Ответ на: комментарий от mord0d 05.02.26 15:58:07 MSK

Пройдёт небольшое время, и огромные вычислительные мощности с необъятными размерами памяти появятся в каждом смартфоне. А учиться настраивать нейросети нужно уже сейчас.

Saakx
(05.02.26 18:26:16 MSK)

Ответ на: комментарий от Saakx 05.02.26 18:26:16 MSK

Что ты там собрался настраивать, если ключевое - это информация, которой оперирует LLM. В чём смысл этих всех онлайн чатжпт и остальных - это в том, что они весь интернет в себя закачали. А на твоём компьютере что он в себя закачает? 100гб порнофильмов?

bryak ★★★★
(05.02.26 18:40:31 MSK)
Последнее исправление: bryak 05.02.26 18:41:41 MSK (всего исправлений: 2)

Ответ на: комментарий от bryak 05.02.26 18:40:31 MSK

Просто для экспериментов, для понимания возможностей и т.д.

Сейчас нейросети — это сервис, который конечный пользователь не контролирует: ему могут выдавать предвзятую информацию, могут заблокировать доступ по политическим причинам, могут сделать услугу дорогой и т.д. Нейросеть на своём оборудовании, понятно, не может конкурировать с нейросетью крупной корпорации, но там, где это возможно, лучше наверное использовать свою нейросеть.

askh ★★★★
(05.02.26 20:18:42 MSK) автор топика

Спрашивайте у своей LLM

Bad_ptr ★★★★★
(05.02.26 20:56:02 MSK)

Ответ на: комментарий от askh 05.02.26 20:18:42 MSK

Всё, что ты говоришь - правильно. Эти сервисы заточены, чтобы достигать целей, поставленных их фаундерами. Но это не отменяет того, что я сказал

А на твоём компьютере что он в себя закачает?

Как ты собираешься применять LLM, которую ты натренировал датасетами, но которая не имеет никаких данных? Чем она тебе поможет? По документации из /usr/share тебе выдаст какие-то ответы. И насколько это нужно?

bryak ★★★★
(05.02.26 21:08:25 MSK)

Что за компьютер? Надо сразу понять возможности и желание.

Допустим у тебя Ryzen 5700x c 32гб памяти и 5060ti 16. (доступный под рукой экземпляр)

Обучение с нуля модели будет доступно для уровня модели TinyLlama с 1.1B за месяц-два. Оно тебе нужно?

Чтобы надеяться на модель 3B нужно уже 24гб и то на таких компьютерах потратить условно полгода.

Дообучение модели даже 7-8b займет всего лишь сутки +/-

А вот просто инференс (запуск) работает практически на любом устройстве (даже недорогие мини-пк ценой в видеокарту офигенно идут на 20+b MoE моделях)

One ★★★★★
(05.02.26 21:33:13 MSK)
Последнее исправление: One 05.02.26 21:33:33 MSK (всего исправлений: 1)

Раз уж подняли тему ИИшечек. Почему инференс требует таких чудовищных вычислительных ресурсов? Потому что количество параметров исчисляется миллиардами?

tiinn ★★★★★
(06.02.26 10:35:13 MSK)

Ответ на: комментарий от tiinn 06.02.26 10:35:13 MSK

Почему инференс требует таких чудовищных вычислительных ресурсов?

Потому что вся работа классических нейронных сетей основана на перемножении матриц.

При миллиардах параметров нужно перемножить просто неприличное количество матриц. Мы научились сокращать вычисления, используя KV-кеш для сохранения промежуточных результатов вычислений, но расплатой за это стали огромные объемы потребляемой памяти.

Если говорить о LLM, то тут еще сверху набрасывает сложности механизм внимания (Attention), добавляя квадратичную сложность от количества токенов в окне контекста. Уже появились субквадратичные методы (Flash Attention), но все равно это все очень тяжело по ресурсам.

Я думаю, в течение 5 лет уже появятся первые оптические сопроцессоры, которые будут перемножать матрицы быстрее, чем ядра видеокарт. В основном за счет того, что они не так греются (свет вместо тока в кремнии) и могут работать на частотах в десятки гигагерц. Это даст завершающий пинок развитию классических сетей.

Obezyan ☆
(06.02.26 13:13:32 MSK)

Ответ на: комментарий от Obezyan 06.02.26 13:13:32 MSK

У меня просто некоторый диссонанс. Какие-нибудь модели 3b я запускаю локально на слабенькой видеокарте. Результат - на тройку с минусом. Gemini на телефоне, что работает на ДЦ Гугла результат выдаёт на пять. Мне большего уже и не надо. Но объём вычислительных ресурсов - больше на несколько порядков. Как так-то?

Больше того, меня не покидают смутные сомнения, что если я возьму топовую видеокарту (лучше, две ;), то и результат получу, сопоставимый с Gemini, только на локалке

tiinn ★★★★★
(06.02.26 13:30:40 MSK)
Последнее исправление: tiinn 06.02.26 13:34:57 MSK (всего исправлений: 1)

Ответ на: комментарий от Obezyan 06.02.26 13:13:32 MSK

в течение 5 лет уже появятся первые оптические сопроцессоры, которые будут перемножать матрицы быстрее, чем ядра видеокарт. В основном за счет того, что они не так греются (свет вместо тока в кремнии) и могут работать на частотах в десятки гигагерц.

Не будет этого. Ещё 30 лет назад про оптические процессоры говорили, и ещё 30 лет говорить будут. Это как термоядерный реактор.

Saakx
(06.02.26 13:32:08 MSK)

Ответ на: комментарий от tiinn 06.02.26 13:30:40 MSK

Как так-то?

Субквадратичная сложность.

Obezyan ☆
(06.02.26 13:35:05 MSK)

Ответ на: комментарий от Obezyan 06.02.26 13:35:05 MSK

меня не покидают смутные сомнения, что если я возьму топовую видеокарту (лучше, две ;), то и результат получу, сопоставимый с Gemini, только на локалке

tiinn ★★★★★
(06.02.26 13:36:12 MSK)

Ответ на: комментарий от Saakx 06.02.26 13:32:08 MSK

Не будет этого. Ещё 30 лет назад про оптические процессоры говорили, и ещё 30 лет говорить будут. Это как термоядерный реактор.

Уже есть работающие прототипы, например, у нас в стране: декабрь 2025, январь 2026.

Вообще, сейчас такое время, что все больше и больше работ «в желез» по нейроморфным процессорам для спайковых сетей и оптическим сопроцессорам появляется в России.

Obezyan ☆
(06.02.26 13:39:21 MSK)

Ответ на: комментарий от tiinn 06.02.26 13:36:12 MSK

что если я возьму топовую видеокарту (лучше, две ;), то и результат получу, сопоставимый с Gemini

Не получишь.

2*32 = 64, получишь результат сравнимый с oss-120b (быстро) в лучшем случае (ну и всякие близкие модели Llima 70b)

Модели Gemini онлайн имеют триллионы параметров, скорее всего сейчас 3-4 триллиона, то есть в 30 раз больше. Зависимость нелинейная, но в разнице рассуждения очень сильная.

Поэтому думать, рассуждать, писать - тут бесплатный онлайн-Gemini без конкуренции «домашнего AI»

А вот выполнять скрипты, парсить, автоматизировать что-либо, вычислять, тут нужна и достаточна и эффективнее локалка чем запрос по API.

One ★★★★★
(06.02.26 14:10:45 MSK)

Ответ на: комментарий от Obezyan 06.02.26 13:13:32 MSK

Эх, кубиты, кубиты. Тоже хочу.

anonymous
(06.02.26 14:15:16 MSK)

Ответ на: комментарий от One 06.02.26 14:10:45 MSK

бесплатный онлайн-Gemini

«Gemini пока не поддерживается в вашей стране. Мы сообщим, когда это изменится.»

Saakx
(06.02.26 14:38:57 MSK)

Ответ на: комментарий от Saakx 06.02.26 14:38:57 MSK

«Gemini пока не поддерживается в вашей стране. Мы сообщим, когда это изменится.»

В русторе лежит обходилка, Geminify.

tiinn ★★★★★
(06.02.26 14:55:46 MSK)

Ответ на: комментарий от tiinn 06.02.26 14:55:46 MSK

Зачем мне на андроиде ИИ (смартфоне), мне надо на линуксе (десктопе). А так, конечно, спасибо за информацию. Только она не применимая.

Saakx
(06.02.26 15:04:12 MSK)

Ответ на: комментарий от Saakx 06.02.26 15:04:12 MSK

Зачем мне на андроиде ИИ (смартфоне), мне надо на линуксе (десктопе).

Значит, вам не очень-то и нужно.

tiinn ★★★★★
(06.02.26 15:08:33 MSK)

Ответ на: комментарий от Saakx 06.02.26 14:38:57 MSK

DNS-over-HTTPS, Private DNS, VPN - вариантов уйма, было бы желание. Нет желания - пользуйся другими, ну или не пользуйся, тоже достойный выбор.

One ★★★★★
(06.02.26 15:18:49 MSK)

←	Какой дистрибутив поставить для работы?

General

Яндекс.Диск закэшировал мой хомяк?

→

Похожие темы