LINUX.ORG.RU

LLM: какие бывают? Где брать? Как пользоваться?

 ,


0

1

Во первых строках

Май 2026. Большие языковые модели перестали быть диковинкой. И даже на ЛОРе под аккомпанимент из ворчания «старичков» появился раздел про ИИшечку. Правда, выясняется, что далеко не все даже в технарском сообществе знают, что собой предтавляет современный ландшафт ЛЛМок: что они умеют, как их применяют, зачем они вообще нужны.

Серьезно усложняет погружение в актуальный контекст (в человеческом смысле слова) уникальный «русский путь»: блокировки со стороны западных разработциков и провайдеров, блокировки от родного РКН и (с недавних пор) ФСБ. Отсюда следуют: платёжные ограничения, обилие китайских альтернатив, собственные разработки Яндекса и Сбера как бенчмарк и пример LLM ( последний пункт - это очень, очень плохо).

Поэтому в недрах моей черепной коропки и на серверах Shēndù Qiúsuǒ (в большей степени) родился следующий текст. Он о том, как большинство пользователей знакомится с БЯМами, какие этапы в работе с модельками проходит, и какие есть варианты выбора в море способов взаимодействия с очень Искусственным не очень Интеллектом.

Двигаемся по уровням погружения.


Первое касание: веб-чаты

Вы только знакомитесь с LLM. У вас нет ни API-ключа, ни желания разбираться с токенами и эндпоинтами. Нужна вкладка в браузере, куда можно написать вопрос и получить ответ. Благо, в 2026 году вариантов — море. Начнём с того, что доступно прямо здесь и сейчас, без обмазывания проксями и ВПНами, бесплатно, иногда с СМС.

DeepSeek — главный хит среди китайских чатов. Регистрация по email, с апреля - модель V4-Pro с контекстным окном в миллион токенов. Работает только с текстом и файлами, генерации изображений нет. Бесплатно.

Qwen Chat от Alibaba — если хочется мультимодальности. Генерация изображений? Встроена. Видеопонимание? Пожалуйста. Голосовой ввод? Есть. Qwen Studio позволяет переключаться между разными версиями моделей. Есть мостик к тем самым кодинг-агентам (о них позже) - кодинг-режим прямо из веб-интерфейса. С возможность подключения своего git-репо, с работой в git-образном окошке.

Kimi от Moonshot AI навалил массу фич прямо в веб интерфейс. Тут и кодинг-окошко, и конструктор сайтов. И даже мечта офисного работника - автогенерация презенташек. Загрузил документ — получил готовый PPT.

Doubao (ByteDance) делает ставку на голосовой диалог — естественную речь, AI-персонажей, экосистему TikTok. Можно делать картинки, переводить тексть, выполнять домашку. Модно, молодежно, для неразвлекательных целей - малоприменимо.

Ernie Bot (Baidu) и Spark (iFlytek) — ещё два китайских товарища. Ernie щеголяет плагинами и интеграцией с поиском Baidu, Spark — лучшими в Китае голосовыми технологиями и мультяшными цифровыми аватарками. Для российского пользователя - не особо полезно.

Все эти чаты доступны из России без VPN. Минус: часть требует китайский номер для регистрации.

Российские решения — варианта два и оба так себе: YandexGPT aka AlisaAI и GigaChat. Отстают от флагманов западного моделестроения очень сильно. Для серьезной работы (по крайней мере, с текстами, картинками и видео) - почти не пригодны. Но плюcы, конечно есть. Русский язык для них родной. YandexGPT встроен в поиск Яндекса, в Алису, в сервис «Яндекс 300» (гусары,молчать!) - краткий пересказ статей, подкастов и видео. GigaChat от Сбера умеет генерировать изображения (Kandinsky) прямо в чате. Оба работают без VPN, Яндекс еще и доступен при режиме «белых списков» (почти всегда), принимают российские карты для премиум-функций.

А теперь — веб-чаты, которые без VPN не открываются: ChatGPT, Claude, Gemini, Grok, Perplexity, Mistral. Это западные флагманы. У каждого — арсенал уникальных фич: Artifacts у Claude, Canvas и GPTs у ChatGPT, Perplexity с полным цитированием источников. Есть все, что и у web-реализаций из Поднебесной и с горкой. Но дверь заперта. Нужны VPN и, для платных подписок, иностранная карта. Досадно, но ладно.


Коготок (claw) застрял - всей птичке пропасть: связка Агент + API

Вы распробовали чаты. Теперь хочется большего: чтобы нейросеть работала с кодом, файловой системой, терминалом. Чтобы сама коммитила в Git, открывала PR, запускала тесты. Сделала rm -rf /*, наконец. Для этого нужны две вещи: агент(к агентности в философском или daemon смысле не имеет никакого отношения, просто так повелось называть) - это софт, который оркестрирует взаимодействие и предоставляет инструметы расширяюшие или ограничивающие работу модели и API-провайдер - тот, кто поставляет доступ к самой LLM, развернутой на серверах китайских товарищей или буржуйских супостатов.

Поставщики «мозгов» бывают двух сортов

Вендоры — разработчики моделей: OpenAI, Anthropic, Google, DeepSeek, Alibaba (Qwen). У них прямой доступ к собственным моделям.

Агрегаторы — посредники, собирающие модели от разных вендоров под одной крышей: OpenRouter есть бесплатный план, DeepInfra, Together AI, Groq есть бесплатный план, Fireworks AI, OpenCode (Zen/Go) есть бесплатный план, Cerebras есть бесплатный план. Список можно продолжать и продолжать, заканчивая помойками-однодневками от успешных васянов с ветхими стойками в древних ЦОДах. Отмечу, многие из агрегаторов не только продают доступ к общим инференс-инстансам, для солидных господ есть предложения о покупке отдельного инстанса или, натурально, выделенного вычислительного кластера для рассупонивания модельки.

Отдельного упоминания стоит nVidia - эти ребята производят не только лучшие GPU и NPU на сегодняшний день, они еще и файн-тюнят открытые модельки, предоставляют API и держат репозиторий открытых моделей (что это и зачем - дальше по тексту). Почти все провайдеры требуют иностранную карту. Но есть обходные пути: оформление иностранных карт, посредники с разнообразных платежных сервисов (тысячи их), старая добрая крипта.

Российские вендоры YandexGPT и GigaChat тоже предоставляют доступ к моделькам через API. Полная поддержка российских карт, данные на серверах в РФ. GigaChat даёт 1M токенов бесплатно при регистрации. Кто-то пользуется.

Агенты: open-source и проприетарные

Агент — это программа, которая превращает LLM из собеседника в деятеля. Агент читает код, пишет файлы, запускает команды, ищет в интернете, подключается к базам данных. Его принято ставить в Doker’ы, на виртуалки, на отдельные ПК (все любят MAC mini). На самом деле, если вы не кулхацкер, то для задач регулярной генерации текстов, создания скриптов для локальных автоматизаций, кодинга своего уютного сайтика - вполне можно разворачивать локально на машинке в юзер-директории (большинство агентов сами вам напомнят, что надо высовывать в сеть, а что нет, и в каких случаях). Так или иначе, все инструменты из нашего обзора делятся на три лагеря:

Open-source агенты:

OpenCode (150K ★) — CLI/Desktop/IDE/Web. TypeScript. Поддерживает 75+ провайдеров, включая локальные модели. Может работать в headless-режиме. Кроссплатформенный. Универсальный.

Cline (61.5K ★) — расширение VS Code. MCP из коробки, умеет генерировать MCP-серверы прямо из чата. Подтверждение каждого действия (human-in-the-loop).

Kilocode (19K ★) — позиционируется как «инженерная платформа», кроссплатформенный, расширенный функции автоматизации/ выполнения циклических задач.

Aider (44.5K ★) — CLI, Python. Фишка: Repomap — карта репозитория для навигации модели.

Qwen Code (24K ★) — CLI от Alibaba. Заточен под семейство Qwen, но работает с любыми моделями. Поддержка Skills и SubAgents.

Roo Code (24K ★) — форк Cline с фокусом на кастомизацию режимов. Поддерживает русский язык в интерфейсе.

LangChain, CrewAI, AutoGPT, MetaGPT, Qwen Agent — фреймворки для построения собственных агентных систем. От библиотек до платформ с marketplace.

Pi-agent (45.8K ★) — минималистичный terminal-based harness от Mario Zechner. Философия: «адаптируй pi под себя, а не наоборот». Собственный TUI-движок. Не поддерживает MCP принципиально — всё необходимое строится через extensions. По сути — эталонный каркас для построения LLM-агентов: на его SDK построен, в частности, OpenClaw.

Проприетарные агенты:

Claude Code (Anthropic) — терминальный AI-разработчик. Автономная работа с кодом, коммиты, PR. Но: в РФ нужен и VPN, и иностранная карта. Худшая доступность.

VS Code — база. Минималистичный, расширяемый. Самый распространённый. GitHub Copilot - это по сути то же самое.

Cursor — AI IDE (форк VS Code). Composer 2, сверхточное автодополнение, облачные агенты.

Windsurf — ещё один agentic IDE. Cascade (локальный агент) + Devin (облачный). Agent Command Center — канбан-доска для управления агентами.

Antigravity (Google) — десктоп-приложение. Регионально ограничен, но сообщество поддерживает open-antigravity-patcher для обхода блокировок в РФ.

Важный нюанс: почти все агенты — «агностики». Они не привязаны к конкретному вендору. Вы можете направить Cline на OpenRouter, Aider — на DeepSeek API, OpenCode — на локальную Ollama. Связка выбирается под задачу и бюджет. Исключения: Claude Code работает только с моделями Anthropic; Qwen Code оптимизирован под Qwen, но принимает и другие эндпоинты.

OpenClaw (369K ★) стоит особняком. Это не чисто кодинг-агент, а, скорее, персональный AI-ассистент с мультиканальным Gateway (23+ каналов: WhatsApp, Telegram, Slack, Discord, Signal, iMessage и др.). Агентный движок построен на Pi-agent SDK. Влияние ОткрытойКлешни на экосистему кодинг-агентов колоссально: именно OpenClaw с его 369 тысячами звёзд популяризировал TUI-интерфейс среди массовой аудитории, а его система навыков ClawHub (5400+ skills) задала стандарт для реестров агентных умений. Плагины совместимы с форматами Codex/Claude/Cursor. Если Pi-agent — эталонный harness, то OpenClaw — эталон того, как этот harness развернуть в продакшене.

Выбор агента — вопрос привычек (CLI/IDE/Web) и языка реализации. Выбор API — вопрос доступности, цены и качества модели для конкретной задачи. Специализированных российских AI-агентов для работы с кодом по состоянию на май 2026 не существует. YandexGPT и GigaChat — LLM общего назначения, не agentic tools. Адаптация open-source решений (Cline, Aider, Qwen Code) с локальными моделями или российскими API-провайдерами — основной путь для разработчиков и вайб-кодеров в РФ.


А внутри у ней - нейронка: плагин, память и контекст

Вы собрали связку «агент + API» и она работает. Но со временем приходит понимание: агент, который после каждой сессии «забывает» всё на свете — это пол-агента. Ему нужна память, причем такая, которая не сжигает все контекстное окно еще до старта задачи. Ему нужны инструменты, хорошо бы мониторируемые и логируемые - для пущей точности и контроля. Не лишним будет распараллеливание работы, запуск отдельных суб-агентов, такск-трекинг для всего этого зоопарка. Для простых ребят, не владеющих тайным мастерством программирования с помощью естественного интеллекта (вроде меня), желательно, чтобы эти инструменты кто-то уже написал.

К счастью, вокруг каждого крупного агента выросла экосистема.

Рынок плагинов и скиллов

Самый раздутый маркетплейс — ClawHub у OpenClaw. 5400+ скиллов, 52 тысячи инструментов, 180 тысяч пользователей, 12 миллионов загрузок. Категории от self-improving agent до security и dashboard builder. Публиковать может любой пользователь GitHub — прямо сейчас тысячи вайбкодеров пишут свои пул реквесты.

У Claude Codeофициальный маркетплейс от Anthropic. Несколько десятков официальных плагинов (code-review, feature-dev, plugin-dev, hookify, pr-review-toolkit), плюс возможность создавать приватные маркетплейсы для команд. В отличие от плагинов сообщества для других агентов (где качество не гарантируется), у Антропиков все супер сурьезно: полноценные бандлы с командами, агентами, хуками, скиллами и MCP-конфигами.

Pi-agent пошёл другим путём. Вместо маркетплейса — npm-пакеты (Pi Packages) и система Extensions на TypeScript. Extensions регистрируют произвольные инструменты, команды, хоткеи, UI-компоненты, обработчики событий. Можно заменить встроенные инструменты, добавить sub-agents, plan mode, permission gates. Философия pi: «ничего не встроено — всё расширяемо».

Cline — погружение в вайбкодинг-дзен: агент сам создаёт MCP-серверы из чата. Говорите «добавь инструмент, который…» — и Cline пишет, устанавливает и подключает новый MCP-сервер. Без программирования, без конфигов вручную.

Стандарты конвергируют. MCP (Model Context Protocol) стал универсальным языком подключения инструментов — 85K звёзд, 10K форков, тысячи community-серверов. AgentSkills (SKILL.md) — стандарт для скиллов, совместимый между Pi, Claude Code, Cline, OpenCode. Плагинные форматы пересекаются: OpenCode читает bundle-плагины Codex/Claude/Cursor. Как правило плагины/скиллы/тулзы опенсорсны и бесплатны, но уже появляется рынок коммерческих MCP-серверов.

Память агента — иногда за нее нужно платить

Агент который знает и помнит все про вашу машину, про вас, про ваши привычки и стиль написания текстов (машинных и человечных). Страшно… очень страшно… Но значительной части юзеров именно это и надо. Чтобы агент поддерживал стиль общения, помнил, над чем вы с ним работаете, дольше одной сессии, был чтобы таким Джарвисом у Железного Человека. Для этого нужна память. И тут главный вопрос, как сделать так, чтобы обращения к памяти не съедали драгоценные токены и не сжигали чуть менее драгоценный контекст. Дело не простое и вайбкодингу малоподдающееся (тут реально надо быть ML-инженером).

Mem0 (55K ★, Apache 2.0) — де-факто стандарт. Извлекает и хранит пользовательские предпочтения, факты, контекст. Алгоритм v3 (апрель 2026): single-pass экстракция, entity linking, multi-signal retrieval (семантический + BM25 + entity matching). Бенчмарки: 91.6 на LoCoMo, 93.4 на LongMemEval. Есть self-hosted версия — pip install mem0ai или docker compose up. Встроен в OpenCode, поддерживает MCP.

Letta (ex-MemGPT, 22.5K ★) — self-editing memory: агент сам обновляет свою память. Архивная память + recall для восстановления контекста из долгосрочной. Есть собственный агент, есть инструмент памяти по API.

LangMem (MIT) — Memory SDK для LangGraph-агентов, встраивается в существующие пайплайны.

Векторные базы как фундамент памяти

Любое memory-решение опирается на векторную БД. Milvus (44K ★), Qdrant (31K ★), ChromaDB (28K ★), Weaviate (16K ★) — все open-source, все разворачиваются локально в Docker, все бесплатны. Qdrant умеет квантовать векторы с экономией RAM до 97%. ChromaDB встроена в Mem0 по умолчанию. Milvus — выбор для промышленных масштабов (10B+ векторов).

Экосистема расширений — то, что превращает агента из игрушки в инструмент. Плагины и скиллы добавляют способности. Memory-решения добавляют контекст между сессиями. Векторные БД — фундамент. Почти всё open-source и работает локально — российскому пользователю здесь вольготно.


Полный суверенитет и абсолютное погружение: локальный инференс

Вы преисполнились. Вам мало облачных API. Хочется, чтобы модель работала на вашем железе, без интернета, без лимитов, без оглядки на чужие серверы. Все - мы в стадии локального развертывания БЯМ. Здесь три составляющих: где брать модели, чем их запускать и на чём их запускать. Ответ на последний вопрос суперпростой - на чем угодно. Современные модели постояннно оптимизируются под «слабенькие» железки, снижают требования к объему памяти и вычислительной мощности квантизацией и ротацией активных параметров. Видеокарта НЕ обязательна - большинство инструментов запуска (почти у всех под капотом llama.cpp) прекрасно работает как с GPU, так и со связкой CPU+RAM. Отсюда стандартный вывод: много оперативы не бывает.

Репозитории моделей

Главный хаб планеты — Hugging Face. 2 миллиона моделей. Доступен из России без VPN (май 2026). Некоторые российские аккаунты удалены, но сам сайт открыт. При больших загрузках может барахлить без VPN.

ModelScope — китайский аналог HF от Alibaba. Эксклюзивные китайские модели, которых нет на Hugging Face.

Ollama Library — встроенный реестр моделей для инструмента Ollama.

CivitAI — репозиторий моделей для генерации изображений (Stable Diffusion, Flux).

Собственного российского репозитория нет. Российские открытые модели — это практически исключительно экосистема Сбера (GigaChat, ruGPT, Kandinsky), выложенные организацией ai-sage на Hugging Face. Яндекс веса не публикует.

Инструменты запуска

llama.cpp (109K ★) — фундамент всего. Чистый C++, без внешних зависимостей. Компилируется под всё: от серверной стойки с 8×H100 до Android-телефона. Поддерживает 200+ архитектур, квантование от 1.5 до 8 бит. Multi-node через RPC — можно распределить инференс по сети. OpenAI-совместимый API-сервер. Но: требует компиляции из исходников.

Ollama (109K ★) — проприетарная обёртка над llama.cpp, доведённая до состояния «скачал и заработало». Одна команда ollama run llama3 — и модель отвечает. Есть платный облачный уровень Pro/Max. Идеальный старт для тех, кто не хочет ковыряться в исходниках.

vLLM (79.3K ★) — инструмент для продакшена. Python, PagedAttention, continuous batching. Максимальная пропускная способность при массовых запросах. Multi-node, множество форматов квантования. pip install vllm — и поехали. Основная платформа — Linux с GPU.

LM Studio — десктопное приложение с GUI. Встроенный каталог моделей: выбрал → скачал → запустил. OpenAI-совместимый API из коробки. LM Link (апрель 2026) — возможность подключаться к удалённым инстансам. Бесплатно для личного использования.

GPT4All — десктоп + Python API. LocalDocs — чат с вашими документами без интернета. Vulkan-ускорение на INTEL, NVIDIA и AMD.

TextGen (oobabooga) — веб-интерфейс на Gradio. Multimodal, LoRA-тренировка, генерация изображений, TTS. 100% оффлайн.

KoboldCpp — один исполняемый файл. Внутри: LLM + генерация изображений + генерация видео + распознавание речи + синтез речи + генерация музыки. Есть UI для ролевых игр.

MLX (github.com) — фреймворк от Apple для Apple Silicon. NumPy-подобный Python API, unified memory. Идеален для владельцев Mac.

llama.rn — мобильный инференс. React Native-обёртка над llama.cpp для iOS (Metal) и Android (OpenCL/NPU).

Российских инструментов для локального инференса нет. Российские модели запускаются через международные инструменты — те же GGUF-квантизации GigaChat 3.1 работают в llama.cpp и Ollama без проблем.

Напоследок

Является ли этот гайд/обзор полным и исчерпывающим? Конечно нет. Во первых все онлан-чятики, провайдеров API, кодинг-агентов, различных около-ИИшных утилит и инструментов - не переназвать. Во ворых отрасль развивается очень быстро, и также быстро устареет этот материал. Где-то в середине лета выйдут новые крупные западные и китайские модели (скриньте этот твит). Скорее всего, еще раньше появится новая «хайповая» тема - навроде OpenClaw в начале этого года. Но парой вещей эта портянка ценна: она описывает логику знакомства обычного работяги с БЯМами, плюс тут очень много ссылочек на всяческую халяву и опен-сорц. Надеюсь, вам пригодится.

PS: В материале было много сравнительных табличек чатов, агентов, провайдеров и инструментов запуска. Вот только движок ЛОРа ни в какую не позволяет скрещивать Markdown с HTML и прятать фрагменты под кат. Так что, если надо, вот тут навалено аналитики



Последнее исправление: ivbor (всего исправлений: 3)

В обзоре отсутствуют cli агенты codex, gemini и copilot, при том, что были упомянуты куда более редкие и qwen code форк gemini. А также Hermes agent, быстро развивающаяся альтернатива OpenClaw с меньшим количеством проблем и интересной фичей - постоянной памятью. Возможно, в ide стоит добавить zed - там есть киллер фича в виде скорости работы, потому что не на жава или жаваскрипт)

goingUp ★★★★★
()
Последнее исправление: goingUp (всего исправлений: 2)

Ollama (109K ★) — проприетарная обёртка

ollama/ollama is licensed under the MIT License

Хочется пошутить про гпл, но не буду.

anonymous
()

Open WebUI нет, опенроутера нет..

Первый нужен, чтобы поставить вебгуй и туда ключ от любого апи вбить и юзать. Я например там нвидию использую.

Второй - как хаб, который берет твои запросы и раскидывает по разным поставщикам и моделям.

anonymous
()

А теперь все то же самое, но с разделением: Бесплатное и Платное.

В платном подробно - за что платишь и сколько платишь. Все остальное уже после.

Можно даже проще: обзор по полностью бесплатным (не обязательно свободым) продуктам и что они могут максимально сейчас.

LightDiver ★★★★★
()

Видеокарта НЕ обязательна

Не обязательна лишь если в системе iGPU, в других случаях чистое CPU имеет нулевое практическое значение даже для ознакомления с простыми локальными моделями.

А вот скромные iGPU это прекрасный выбор для начала, модели уровня Qwen3-35B-A3B и Gemma 4-26B-A4B достаточно шустро (20t/s и 16t/s) работают даже на встройке 780m

One ★★★★★
()
Ответ на: комментарий от LightDiver

Нет такого разделения.

обзор по полностью бесплатным (не обязательно свободым) продуктам

Ты путаешь свободную модель с сервисом, видимо.

по полностью бесплатным (не обязательно свободым) продуктам

А потом плачут «кококо если бесплатно значит я жертва».

За вас уже код пишут почти целиком, а они все ещё сидят в позиции жертвы и говорят «мам, выбери мне модель или сервис , только чтоб бесплатный был! Я требую».

Короче, ты привык требовать. Взял бы да и написал сам.

anonymous
()
Ответ на: комментарий от anonymous

Да мне по барабану на ваших жертв и ко-ко-ко.

Мне бы обзор по бесплатным продуктам, их ограничениям и что они могут максимально.

Сейчас это свалка инфы тут. Врядли кто то дочитал хотя бы до середины. Информативность очень низкая, потому что непонятно с чем ты столкнешься при использовании конкретно.

Структура нужна, а не все подряд. Тут кое какая структура есть, но довольно слабая. Как минимум я указал - что стоит разбелить платное и бесплатное. И в бесплатном указать возможности.

У автора, конечно же, есть свое видение - как правильно. Может ему религия запрещает сделать удобнее - его право. Может ему просто не хочется указывать определенное. Но если хочется сделать удобнее - я с удовольствием почитал бы. Инфа то действительно актуальная и интересная.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 2)
Ответ на: комментарий от LightDiver

ОП пост говно, безусловно.

Другое дело, что он и не нужен совсем, даже в идеальном и структурированном виде, потому что меняется ситуация постоянно.

По факту (насчёт погромистов упущу) просто юзаешь топов - гугл, чатгпт, дипсик; посматриваешь на статистику трендов в опенроутере. Да наверное и все, чего ещё не хватает?

Всякие z.ai и build.nvidia, если очень надо, но зачем?

Если не для личного использования, а для рабочих нужд, то тупо опенроутер.

anonymous
()
Ответ на: комментарий от anonymous

Вот в том и дело, что все очень уж стремительно меняется. Не успеешь оглянуться, еще три новых продукта с новой функциональностью, а ты то и не знал. Вон я для себя от квена Лингму открыл. И лимиты там, вроде как, более дружественные, чем у того же курсора. В инфе, к слову, о ней нет упоминаний. Вот мне и интересно - а нет ли подобного продукта с более менее юзабельными лимитами на бесплатных тарифах. Но я подозреваю, что нету.

LightDiver ★★★★★
()
Ответ на: комментарий от anonymous

Gemma 4-26B-A4B на UD-IQ4_NL в памяти где-то 14гб весит, Qwen3-35B-A3B - 18гб.

Последнее намного лучше и даже на четверть быстрее. ПК с 32-48 гб им за глаза.

А работает шустро, так как MoE

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)

Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария