LLM: какие бывают? Где брать? Как пользоваться?
Во первых строках
Май 2026. Большие языковые модели перестали быть диковинкой. И даже на ЛОРе под аккомпанимент из ворчания «старичков» появился раздел про ИИшечку. Правда, выясняется, что далеко не все даже в технарском сообществе знают, что собой предтавляет современный ландшафт ЛЛМок: что они умеют, как их применяют, зачем они вообще нужны.
Серьезно усложняет погружение в актуальный контекст (в человеческом смысле слова) уникальный «русский путь»: блокировки со стороны западных разработциков и провайдеров, блокировки от родного РКН и (с недавних пор) ФСБ. Отсюда следуют: платёжные ограничения, обилие китайских альтернатив, собственные разработки Яндекса и Сбера как бенчмарк и пример LLM ( последний пункт - это очень, очень плохо).
Поэтому в недрах моей черепной коропки и на серверах Shēndù Qiúsuǒ (в большей степени) родился следующий текст. Он о том, как большинство пользователей знакомится с БЯМами, какие этапы в работе с модельками проходит, и какие есть варианты выбора в море способов взаимодействия с очень Искусственным не очень Интеллектом.
Двигаемся по уровням погружения.
Первое касание: веб-чаты
Вы только знакомитесь с LLM. У вас нет ни API-ключа, ни желания разбираться с токенами и эндпоинтами. Нужна вкладка в браузере, куда можно написать вопрос и получить ответ. Благо, в 2026 году вариантов — море. Начнём с того, что доступно прямо здесь и сейчас, без обмазывания проксями и ВПНами, бесплатно, иногда с СМС.
DeepSeek — главный хит среди китайских чатов. Регистрация по email, с апреля - модель V4-Pro с контекстным окном в миллион токенов. Работает только с текстом и файлами, генерации изображений нет. Бесплатно.
Qwen Chat от Alibaba — если хочется мультимодальности. Генерация изображений? Встроена. Видеопонимание? Пожалуйста. Голосовой ввод? Есть. Qwen Studio позволяет переключаться между разными версиями моделей. Есть мостик к тем самым кодинг-агентам (о них позже) - кодинг-режим прямо из веб-интерфейса. С возможность подключения своего git-репо, с работой в git-образном окошке.
Kimi от Moonshot AI навалил массу фич прямо в веб интерфейс. Тут и кодинг-окошко, и конструктор сайтов. И даже мечта офисного работника - автогенерация презенташек. Загрузил документ — получил готовый PPT.
Doubao (ByteDance) делает ставку на голосовой диалог — естественную речь, AI-персонажей, экосистему TikTok. Можно делать картинки, переводить тексть, выполнять домашку. Модно, молодежно, для неразвлекательных целей - малоприменимо.
Ernie Bot (Baidu) и Spark (iFlytek) — ещё два китайских товарища. Ernie щеголяет плагинами и интеграцией с поиском Baidu, Spark — лучшими в Китае голосовыми технологиями и мультяшными цифровыми аватарками. Для российского пользователя - не особо полезно.
z.ai — Хороший базовый набор в веб-чате: генерация текстов, слайдов, таблиц, дашбордов, кода. Из России работает нестабильно, могут не работать некоторые функции. Годится в качестве тест-режима модельки GLM-5.1 перед покупкой API-ключа.
MiniMax — Комбайн в вебе: тут и «агенты», и «скиллы», и создание артефактов от табличек до видео. Фишка - режим «Эксперты»: режим диалога с моделью системными промптами и MCP заточенной под конкретные задачи. Раньше много было бесплатно, теперь эти функции - в месячном «триале» перед базовой подпиской.
StepFun / 阶跃AI — Дипсик на минималках. Примечателен бешеным количеством рекламы: продвигают свой форк OpenClaw и API-подписку к нему.
Все эти чаты доступны из России без VPN. Минус: часть требует китайский номер для регистрации.
Российские решения — варианта два и оба так себе: YandexGPT aka AlisaAI и GigaChat. Отстают от флагманов западного моделестроения очень сильно. Для серьезной работы (по крайней мере, с текстами, картинками и видео) - почти не пригодны. Но плюcы, конечно есть. Русский язык для них родной. YandexGPT встроен в поиск Яндекса, в Алису, в сервис «Яндекс 300» (гусары,молчать!) - краткий пересказ статей, подкастов и видео. GigaChat от Сбера умеет генерировать изображения (Kandinsky) прямо в чате. Оба работают без VPN, Яндекс еще и доступен при режиме «белых списков» (почти всегда), принимают российские карты для премиум-функций.
А теперь — веб-чаты, которые без VPN не открываются: ChatGPT, Claude, Gemini, Grok, Perplexity, Mistral, Microsoft Copilot, запрещенная и экстремистская Meta AI. Это западные флагманы. У каждого — арсенал уникальных фич: Artifacts у Claude, Canvas и GPTs у ChatGPT, Perplexity с полным цитированием источников. Есть все, что и у web-реализаций из Поднебесной и с горкой. Но дверь заперта. Нужны VPN и, для платных подписок, иностранная карта. Досадно, но ладно.
Коготок (claw) застрял - всей птичке пропасть: связка Агент + API
Вы распробовали чаты. Теперь хочется большего: чтобы нейросеть работала с кодом, файловой системой, терминалом. Чтобы сама коммитила в Git, открывала PR, запускала тесты. Сделала rm -rf /*, наконец. Для этого нужны две вещи: агент(к агентности в философском или daemon смысле не имеет никакого отношения, просто так повелось называть) - это софт, который оркестрирует взаимодействие и предоставляет инструметы расширяюшие или ограничивающие работу модели и API-провайдер - тот, кто поставляет доступ к самой LLM, развернутой на серверах китайских товарищей или буржуйских супостатов.
Поставщики «мозгов» бывают двух сортов
Вендоры — разработчики моделей: OpenAI, Anthropic, Google (бесплатные flash-модели по API!!!), DeepSeek, Alibaba (Qwen), Z.ai API, MiMo (Xiaomi). У них прямой доступ к собственным моделям. Агрегаторы — посредники, собирающие модели от разных вендоров под одной крышей: OpenRouter есть бесплатный план, DeepInfra, Together AI, Groq есть бесплатный план, Fireworks AI, OpenCode (Zen/Go) есть бесплатный план, Cerebras есть бесплатный план. Список можно продолжать и продолжать, заканчивая помойками-однодневками от успешных васянов с ветхими стойками в древних ЦОДах. Отмечу, многие из агрегаторов не только продают доступ к общим инференс-инстансам, для солидных господ есть предложения о покупке отдельного инстанса или, натурально, выделенного вычислительного кластера для рассупонивания модельки.
Отдельного упоминания стоит nVidia - эти ребята производят не только лучшие GPU и NPU на сегодняшний день, они еще и файн-тюнят открытые модельки, предоставляют API и держат репозиторий открытых моделей (что это и зачем - дальше по тексту). Почти все провайдеры требуют иностранную карту. Но есть обходные пути: оформление иностранных карт, посредники с разнообразных платежных сервисов (тысячи их), старая добрая крипта.
Российские вендоры YandexGPT и GigaChat тоже предоставляют доступ к моделькам через API. Полная поддержка российских карт, данные на серверах в РФ. GigaChat даёт 1M токенов бесплатно при регистрации. Кто-то пользуется.
Агенты: open-source и проприетарные
Агент — это программа, которая превращает LLM из собеседника в деятеля. Агент читает код, пишет файлы, запускает команды, ищет в интернете, подключается к базам данных. Его принято ставить в Doker’ы, на виртуалки, на отдельные ПК (все любят MAC mini). На самом деле, если вы не кулхацкер, то для задач регулярной генерации текстов, создания скриптов для локальных автоматизаций, кодинга своего уютного сайтика - вполне можно разворачивать локально на машинке в юзер-директории (большинство агентов сами вам напомнят, что надо высовывать в сеть, а что нет, и в каких случаях). Так или иначе, все инструменты из нашего обзора делятся на три лагеря:
Open-source агенты:
OpenCode (150K ★) — CLI/Desktop/IDE/Web. TypeScript. Поддерживает 75+ провайдеров, включая локальные модели. Может работать в headless-режиме. Кроссплатформенный. Универсальный. Cline (61.5K ★) — расширение VS Code. MCP из коробки, умеет генерировать MCP-серверы прямо из чата. Подтверждение каждого действия (human-in-the-loop). Kilocode (19K ★) — позиционируется как «инженерная платформа», кроссплатформенный, расширенный функции автоматизации/ выполнения циклических задач. Aider (44.5K ★) — CLI, Python. Фишка: Repomap — карта репозитория для навигации модели. Qwen Code (24K ★) — CLI от Alibaba. Заточен под семейство Qwen, но работает с любыми моделями. Поддержка Skills и SubAgents. Roo Code (24K ★) — форк Cline с фокусом на кастомизацию режимов. Поддерживает русский язык в интерфейсе. LangChain, CrewAI, AutoGPT, MetaGPT, Qwen Agent — фреймворки для построения собственных агентных систем. От библиотек до платформ с marketplace. Pi-agent (45.8K ★) — минималистичный terminal-based harness от Mario Zechner. Философия: «адаптируй pi под себя, а не наоборот». Собственный TUI-движок. Не поддерживает MCP принципиально — всё необходимое строится через extensions. По сути — эталонный каркас для построения LLM-агентов: на его SDK построен, в частности, OpenClaw.
Проприетарные агенты:
Claude Code (Anthropic) — терминальный AI-разработчик. Автономная работа с кодом, коммиты, PR. Но: в РФ нужен и VPN, и иностранная карта. Худшая доступность.
VS Code — база. Минималистичный, расширяемый. Самый распространённый. GitHub Copilot - это по сути то же самое.
Cursor — AI IDE (форк VS Code). Composer 2, сверхточное автодополнение, облачные агенты.
Windsurf — ещё один agentic IDE. Cascade (локальный агент) + Devin (облачный). Agent Command Center — канбан-доска для управления агентами.
Antigravity (Google) — десктоп-приложение. Регионально ограничен, но сообщество поддерживает open-antigravity-patcher для обхода блокировок в РФ.
Агенты общего назначения стоят особняком от кодинг-агентов. Это не встройка в IDE и не CLI-утилита для работы с репозиторием — это персональные ассистенты, которые живут на вашем сервере/локальной машине, помнят контекст между сессиями и доступны через Telegram, Discord, Slack и другие каналы.
OpenClaw (369K ★) — лидер среди ассистентов общего назначения (см. таблицу 2.4). Это не чисто кодинг-агент, а персональный AI-ассистент с мультиканальным Gateway (24+ каналов). Агентный движок построен на Pi-agent SDK. Влияние на экосистему колоссально: именно OpenClaw популяризировал TUI-интерфейс среди массовой аудитории, а его система навыков ClawHub (5400+ skills) задала стандарт для реестров агентных умений.
Hermes Agent (104K ★) — самообучающийся агент от Nous Research. Создаёт reusable skills из опыта, улучшает их в процессе работы. Встроенный cron-планировщик, субагенты, браузерная автоматизация. 18+ LLM-провайдеров.
Важный нюанс: почти все агенты — «агностики». Они не привязаны к конкретному вендору. Вы можете направить Cline на OpenRouter, Aider — на DeepSeek API, OpenCode — на локальную Ollama. Связка выбирается под задачу и бюджет. Исключения: Claude Code работает только с моделями Anthropic; Qwen Code оптимизирован под Qwen, но принимает и другие эндпоинты.
Выбор агента — вопрос привычек (CLI/IDE/Web) и языка реализации. Выбор API — вопрос доступности, цены и качества модели для конкретной задачи. Специализированных российских AI-агентов для работы с кодом по состоянию на май 2026 не существует. YandexGPT и GigaChat — LLM общего назначения, не agentic tools. Адаптация open-source решений (Cline, Aider, Qwen Code) с локальными моделями или российскими API-провайдерами — основной путь для разработчиков и вайб-кодеров в РФ.
А внутри у ней - нейронка: плагин, память и контекст
Вы собрали связку «агент + API» и она работает. Но со временем приходит понимание: агент, который после каждой сессии «забывает» всё на свете — это пол-агента. Ему нужна память, причем такая, которая не сжигает все контекстное окно еще до старта задачи. Ему нужны инструменты, хорошо бы мониторируемые и логируемые. Не лишним будет распараллеливание работы, запуск отдельных суб-агентов. Для простых ребят, не владеющих тайным мастерством программирования, желательно, чтобы эти инструменты кто-то уже написал.
К счастью, вокруг каждого крупного агента выросла экосистема. И она быстро конвергирует к единым стандартам.
Рынок плагинов и MCP-серверы
Плагины расширяют функциональность агента — дают доступ к файловой системе, базам данных, API, браузеру, терминалу. Без плагинов агент умеет только генерировать текст.
MCP (Model Context Protocol) стал универсальным стандартом подключения инструментов. Репозиторий modelcontextprotocol/servers — 85K звёзд, 10K форков, тысячи community-серверов. MCP работает через stdio или HTTP/SSE, позволяет подключить любой внешний инструмент без написания кода внутри самого агента.
Самый раздутый маркетплейс — ClawHub у OpenClaw. 5400+ скиллов, 52 тысячи инструментов, 180 тысяч пользователей, 12 миллионов загрузок. У Claude Code — официальный маркетплейс от Anthropic — 13 официальных плагинов. Cline — агент сам создаёт MCP-серверы из чата.
Реестры MCP-серверов: Smithery — Большой пул MCP общего назначения: поисковые, аналитика по блокчейнам, астрологические прогнозы. Бесплатно 50 000 вызовов в месяц.
, PulseMCP — Агрегатор MCP - сам доступ не раздает. Все серверы свалены в кучу, не для всех опубликованы эндпоинты (т.е. нашел какой-то MCP - идешь к провайдеру и смотришь как привязаться).
, MCPM — Фишка - есть свой «MCP Manager». Инструмент интегрируется с «ассистентами» и «кодинг-агентами» позволяет искать и настраивать MCP без походов по сайтам и репозиториям.
Скиллы (Skills)
Скилл — это не код, а инструкция + контекст. Файл SKILL.md с YAML frontmatter описывает, что агент должен делать в определённой ситуации. Модель сама решает, когда активировать скилл.
Главное отличие от плагинов: плагин добавляет новый инструмент (функцию, API-вызов), скилл добавляет новые знания и поведенческие паттерны. Скилл не требует программирования — это markdown-файл с инструкциями.
Стандарт AgentSkills (SKILL.md) — совместим между Pi, Claude Code, Cline, OpenClaw, OpenCode. YAML frontmatter содержит name, description, triggers — по ним модель определяет, какой скилл применить.
Контекст-файлы
Помимо плагинов и скиллов, поведение агента задаётся через markdown-файлы в директории проекта. Самый простой способ «настроить» агента без единой строчки кода:
| Файл | Назначение | Где используется |
|---|---|---|
| AGENTS.md | Общие инструкции для всех агентов в проекте | OpenClaw, Cline, Codex, Cursor и др. |
| SOUL.md | Личность, стиль общения, ценности агента | OpenClaw, Hermes Agent |
| TOOLS.md | Описание доступных инструментов | OpenClaw |
| USER.md | Профиль пользователя: предпочтения, стиль | Hermes Agent, OpenClaw, и др. |
| MEMORY.md | Долговременная память агента | Hermes Agent |
| .clinerules | Правила поведения для Cline | Cline |
| .cursorrules | Правила поведения для Cursor | Cursor |
Эти файлы автоматически подхватываются агентом при старте сессии и инжектируются в системный промпт. Их можно версионировать в Git.
Память агента — иногда за нее нужно платить
Агент который знает и помнит все про вашу машину, про вас, про ваши привычки. Страшно… очень страшно… Но значительной части юзеров именно это и надо. Чтобы агент поддерживал стиль общения, помнил, над чем вы с ним работаете, дольше одной сессии.
Типы памяти: session (внутри одной сессии), cross-session (предпочтения между сессиями), long-term / archival (архив с recall-механизмом).
Mem0 (55K ★, Apache 2.0) — де-факто стандарт. Алгоритм v3 (апрель 2026): single-pass ADD-only экстракция, entity linking, multi-signal retrieval. Бенчмарки: 91.6 на LoCoMo, 93.4 на LongMemEval. Self-hosted: pip install mem0ai или docker compose up.
Letta (ex-MemGPT, 22.5K ★) — self-editing memory: агент сам обновляет свою память. Архивная память + recall.
LangMem (MIT) — Memory SDK для LangGraph-агентов.
Векторные базы как фундамент памяти
Любое memory-решение опирается на векторную БД. Для продвинутых пользователей — возможность развернуть свой memory backend без готовых решений.
Milvus (44K ★), Qdrant (31K ★), ChromaDB (28K ★), Weaviate (16K ★) — все open-source, все разворачиваются локально в Docker, все бесплатны.
Когда нужна векторная БД: если вы строите RAG-систему, работаете с большими документами, или хотите кастомную память агента с семантическим поиском. Для большинства пользователей достаточно Mem0 (self-hosted) с ChromaDB — это минимум кода и максимум результата.
Экосистема расширений — то, что превращает агента из игрушки в инструмент. Плагины и скиллы добавляют способности. Memory-решения добавляют контекст между сессиями. Векторные БД — фундамент. Почти всё open-source и работает локально — российскому пользователю здесь вольготно.
Полный суверенитет и абсолютное погружение: локальный инференс
Вы преисполнились. Вам мало облачных API. Хочется, чтобы модель работала на вашем железе, без интернета, без лимитов, без оглядки на чужие серверы. Все - мы в стадии локального развертывания БЯМ. Здесь три составляющих: где брать модели, чем их запускать и на чём их запускать. Ответ на последний вопрос суперпростой - на чем угодно. Современные модели постояннно оптимизируются под «слабенькие» железки, снижают требования к объему памяти и вычислительной мощности квантизацией и ротацией активных параметров. Видеокарта НЕ обязательна - большинство инструментов запуска (почти у всех под капотом llama.cpp) прекрасно работает как с GPU, так и со связкой CPU+RAM. Отсюда стандартный вывод: много оперативы не бывает.
Репозитории моделей
Главный хаб планеты — Hugging Face. 2 миллиона моделей. Доступен из России без VPN (май 2026). Некоторые российские аккаунты удалены, но сам сайт открыт. При больших загрузках может барахлить без VPN.
ModelScope — китайский аналог HF от Alibaba. Эксклюзивные китайские модели, которых нет на Hugging Face.
Ollama Library — встроенный реестр моделей для инструмента Ollama.
CivitAI — репозиторий моделей для генерации изображений (Stable Diffusion, Flux).
Собственного российского репозитория нет. Российские открытые модели — это практически исключительно экосистема Сбера (GigaChat, ruGPT, Kandinsky), выложенные организацией ai-sage на Hugging Face. Яндекс веса не публикует.
Инструменты запуска
llama.cpp (109K ★) — фундамент всего. Чистый C++, без внешних зависимостей. Компилируется под всё: от серверной стойки с 8×H100 до Android-телефона. Поддерживает 200+ архитектур, квантование от 1.5 до 8 бит. Multi-node через RPC. OpenAI-совместимый API-сервер.
Ollama (109K ★) — проприетарная обёртка над llama.cpp, доведённая до состояния «скачал и заработало». Одна команда ollama run llama3 — и модель отвечает. Есть платный облачный уровень Pro/Max.
vLLM (79.3K ★) — инструмент для продакшена. Python, PagedAttention, continuous batching. Максимальная пропускная способность при массовых запросах. Multi-node. pip install vllm — и поехали.
SGLang (18K ★) — инференс-комбайн на Питоне. Есть отдельный режим оптимизации запуска на CPU-only сборках.
ExLlamaV3 (4.5K ★) — простое решение для простых моделек. Заявлена оптимизация под инференс на потребительских видеокарточках.
TensorRT-LLM (12K ★) — инференс-решение от nVidia - нуф сказал
LM Studio — десктопное приложение с GUI. Встроенный каталог моделей: выбрал → скачал → запустил. OpenAI-совместимый API из коробки. Бесплатно для коммерческого использования.
Open WebUI (137K ★, 290M+ загрузок) — комбайн для запуска модели сразу с интерфейсом. Подхватывает мультимодальные модельки и дает им интерфейсы для создания картинок, звуков видео. По сути инструмент инференса+сервер+агент в одном флаконе.
Jan (82K ★) — просто чятик, который можно оживить оптимизированными Qwen-модельками или, через небольшие танцы с бубном, любой моделькой.
LocalAI (26K ★) — Очередной комбайн «для всего». Особенность: поддерживается куча бэкенд-версий, отсюда теоретическая возможность запуска почти на любом относительно современном железе. Есть CPU-only
Когда что выбирать:
- Просто запустить модель → Ollama (
ollama run llama3) или LM Studio (GUI) - Максимум контроля → llama.cpp напрямую (C++, квантование, все платформы)
- Продакшен с высокой нагрузкой → vLLM (универсальный) или SGLang (RAG/multi-turn, структурированный вывод)
- Полноценная self-hosted платформа → Open WebUI поверх Ollama/vLLM (multi-user, RAG, MCP, функции)
- Apple Silicon → MLX (разработан Apple, нативная оптимизация)
- Максимум на NVIDIA → TensorRT-LLM (H100/B200, FP4)
Российских инструментов для локального инференса нет. Российские модели запускаются через международные инструменты — те же GGUF-квантизации GigaChat 3.1 работают в llama.cpp и Ollama без проблем.
Напоследок
Является ли этот гайд/обзор полным и исчерпывающим? Конечно нет. Во первых все онлан-чятики, провайдеров API, кодинг-агентов, различных около-ИИшных утилит и инструментов - не переназвать. Во ворых отрасль развивается очень быстро, и также быстро устареет этот материал. Где-то в середине лета выйдут новые крупные западные и китайские модели (скриньте этот твит). Скорее всего, еще раньше появится новая «хайповая» тема - навроде OpenClaw в начале этого года. Но парой вещей эта портянка ценна: она описывает логику знакомства обычного работяги с БЯМами, плюс тут очень много ссылочек на всяческую халяву и опен-сорц. Надеюсь, вам пригодится.
UPD: 17 мая 2026 года. Учтены замечания в комментариях: добавлены z.ai, minimax и другие модели и провайдеры. Добавлены инструменты Copilot и Codex. Переработан блок с плагинами и скиллами, добавлено описание контекст-файлов. Значительно обновлен раздел про инференс.

