Во первых строках
Май 2026. Большие языковые модели перестали быть диковинкой. И даже на ЛОРе под аккомпанимент из ворчания «старичков» появился раздел про ИИшечку. Правда, выясняется, что далеко не все даже в технарском сообществе знают, что собой предтавляет современный ландшафт ЛЛМок: что они умеют, как их применяют, зачем они вообще нужны.
Серьезно усложняет погружение в актуальный контекст (в человеческом смысле слова) уникальный «русский путь»: блокировки со стороны западных разработциков и провайдеров, блокировки от родного РКН и (с недавних пор) ФСБ. Отсюда следуют: платёжные ограничения, обилие китайских альтернатив, собственные разработки Яндекса и Сбера как бенчмарк и пример LLM ( последний пункт - это очень, очень плохо).
Поэтому в недрах моей черепной коропки и на серверах Shēndù Qiúsuǒ (в большей степени) родился следующий текст. Он о том, как большинство пользователей знакомится с БЯМами, какие этапы в работе с модельками проходит, и какие есть варианты выбора в море способов взаимодействия с очень Искусственным не очень Интеллектом.
Двигаемся по уровням погружения.
Первое касание: веб-чаты
Вы только знакомитесь с LLM. У вас нет ни API-ключа, ни желания разбираться с токенами и эндпоинтами. Нужна вкладка в браузере, куда можно написать вопрос и получить ответ. Благо, в 2026 году вариантов — море. Начнём с того, что доступно прямо здесь и сейчас, без обмазывания проксями и ВПНами, бесплатно, иногда с СМС.
DeepSeek — главный хит среди китайских чатов. Регистрация по email, с апреля - модель V4-Pro с контекстным окном в миллион токенов. Работает только с текстом и файлами, генерации изображений нет. Бесплатно.
Qwen Chat от Alibaba — если хочется мультимодальности. Генерация изображений? Встроена. Видеопонимание? Пожалуйста. Голосовой ввод? Есть. Qwen Studio позволяет переключаться между разными версиями моделей. Есть мостик к тем самым кодинг-агентам (о них позже) - кодинг-режим прямо из веб-интерфейса. С возможность подключения своего git-репо, с работой в git-образном окошке.
Kimi от Moonshot AI навалил массу фич прямо в веб интерфейс. Тут и кодинг-окошко, и конструктор сайтов. И даже мечта офисного работника - автогенерация презенташек. Загрузил документ — получил готовый PPT.
Doubao (ByteDance) делает ставку на голосовой диалог — естественную речь, AI-персонажей, экосистему TikTok. Можно делать картинки, переводить тексть, выполнять домашку. Модно, молодежно, для неразвлекательных целей - малоприменимо.
Ernie Bot (Baidu) и Spark (iFlytek) — ещё два китайских товарища. Ernie щеголяет плагинами и интеграцией с поиском Baidu, Spark — лучшими в Китае голосовыми технологиями и мультяшными цифровыми аватарками. Для российского пользователя - не особо полезно.
Все эти чаты доступны из России без VPN. Минус: часть требует китайский номер для регистрации.
Российские решения — варианта два и оба так себе: YandexGPT aka AlisaAI и GigaChat. Отстают от флагманов западного моделестроения очень сильно. Для серьезной работы (по крайней мере, с текстами, картинками и видео) - почти не пригодны. Но плюcы, конечно есть. Русский язык для них родной. YandexGPT встроен в поиск Яндекса, в Алису, в сервис «Яндекс 300» (гусары,молчать!) - краткий пересказ статей, подкастов и видео. GigaChat от Сбера умеет генерировать изображения (Kandinsky) прямо в чате. Оба работают без VPN, Яндекс еще и доступен при режиме «белых списков» (почти всегда), принимают российские карты для премиум-функций.
А теперь — веб-чаты, которые без VPN не открываются: ChatGPT, Claude, Gemini, Grok, Perplexity, Mistral. Это западные флагманы. У каждого — арсенал уникальных фич: Artifacts у Claude, Canvas и GPTs у ChatGPT, Perplexity с полным цитированием источников. Есть все, что и у web-реализаций из Поднебесной и с горкой. Но дверь заперта. Нужны VPN и, для платных подписок, иностранная карта. Досадно, но ладно.
Коготок (claw) застрял - всей птичке пропасть: связка Агент + API
Вы распробовали чаты. Теперь хочется большего: чтобы нейросеть работала с кодом, файловой системой, терминалом. Чтобы сама коммитила в Git, открывала PR, запускала тесты. Сделала rm -rf /*, наконец. Для этого нужны две вещи: агент(к агентности в философском или daemon смысле не имеет никакого отношения, просто так повелось называть) - это софт, который оркестрирует взаимодействие и предоставляет инструметы расширяюшие или ограничивающие работу модели и API-провайдер - тот, кто поставляет доступ к самой LLM, развернутой на серверах китайских товарищей или буржуйских супостатов.
Поставщики «мозгов» бывают двух сортов
Вендоры — разработчики моделей: OpenAI, Anthropic, Google, DeepSeek, Alibaba (Qwen). У них прямой доступ к собственным моделям.
Агрегаторы — посредники, собирающие модели от разных вендоров под одной крышей: OpenRouter есть бесплатный план, DeepInfra, Together AI, Groq есть бесплатный план, Fireworks AI, OpenCode (Zen/Go) есть бесплатный план, Cerebras есть бесплатный план. Список можно продолжать и продолжать, заканчивая помойками-однодневками от успешных васянов с ветхими стойками в древних ЦОДах. Отмечу, многие из агрегаторов не только продают доступ к общим инференс-инстансам, для солидных господ есть предложения о покупке отдельного инстанса или, натурально, выделенного вычислительного кластера для рассупонивания модельки.
Отдельного упоминания стоит nVidia - эти ребята производят не только лучшие GPU и NPU на сегодняшний день, они еще и файн-тюнят открытые модельки, предоставляют API и держат репозиторий открытых моделей (что это и зачем - дальше по тексту). Почти все провайдеры требуют иностранную карту. Но есть обходные пути: оформление иностранных карт, посредники с разнообразных платежных сервисов (тысячи их), старая добрая крипта.
Российские вендоры YandexGPT и GigaChat тоже предоставляют доступ к моделькам через API. Полная поддержка российских карт, данные на серверах в РФ. GigaChat даёт 1M токенов бесплатно при регистрации. Кто-то пользуется.
Агенты: open-source и проприетарные
Агент — это программа, которая превращает LLM из собеседника в деятеля. Агент читает код, пишет файлы, запускает команды, ищет в интернете, подключается к базам данных. Его принято ставить в Doker’ы, на виртуалки, на отдельные ПК (все любят MAC mini). На самом деле, если вы не кулхацкер, то для задач регулярной генерации текстов, создания скриптов для локальных автоматизаций, кодинга своего уютного сайтика - вполне можно разворачивать локально на машинке в юзер-директории (большинство агентов сами вам напомнят, что надо высовывать в сеть, а что нет, и в каких случаях). Так или иначе, все инструменты из нашего обзора делятся на три лагеря:
Open-source агенты:
OpenCode (150K ★) — CLI/Desktop/IDE/Web. TypeScript. Поддерживает 75+ провайдеров, включая локальные модели. Может работать в headless-режиме. Кроссплатформенный. Универсальный.
Cline (61.5K ★) — расширение VS Code. MCP из коробки, умеет генерировать MCP-серверы прямо из чата. Подтверждение каждого действия (human-in-the-loop).
Kilocode (19K ★) — позиционируется как «инженерная платформа», кроссплатформенный, расширенный функции автоматизации/ выполнения циклических задач.
Aider (44.5K ★) — CLI, Python. Фишка: Repomap — карта репозитория для навигации модели.
Qwen Code (24K ★) — CLI от Alibaba. Заточен под семейство Qwen, но работает с любыми моделями. Поддержка Skills и SubAgents.
Roo Code (24K ★) — форк Cline с фокусом на кастомизацию режимов. Поддерживает русский язык в интерфейсе.
LangChain, CrewAI, AutoGPT, MetaGPT, Qwen Agent — фреймворки для построения собственных агентных систем. От библиотек до платформ с marketplace.
Pi-agent (45.8K ★) — минималистичный terminal-based harness от Mario Zechner. Философия: «адаптируй pi под себя, а не наоборот». Собственный TUI-движок. Не поддерживает MCP принципиально — всё необходимое строится через extensions. По сути — эталонный каркас для построения LLM-агентов: на его SDK построен, в частности, OpenClaw.
Проприетарные агенты:
Claude Code (Anthropic) — терминальный AI-разработчик. Автономная работа с кодом, коммиты, PR. Но: в РФ нужен и VPN, и иностранная карта. Худшая доступность.
VS Code — база. Минималистичный, расширяемый. Самый распространённый. GitHub Copilot - это по сути то же самое.
Cursor — AI IDE (форк VS Code). Composer 2, сверхточное автодополнение, облачные агенты.
Windsurf — ещё один agentic IDE. Cascade (локальный агент) + Devin (облачный). Agent Command Center — канбан-доска для управления агентами.
Antigravity (Google) — десктоп-приложение. Регионально ограничен, но сообщество поддерживает open-antigravity-patcher для обхода блокировок в РФ.
Важный нюанс: почти все агенты — «агностики». Они не привязаны к конкретному вендору. Вы можете направить Cline на OpenRouter, Aider — на DeepSeek API, OpenCode — на локальную Ollama. Связка выбирается под задачу и бюджет. Исключения: Claude Code работает только с моделями Anthropic; Qwen Code оптимизирован под Qwen, но принимает и другие эндпоинты.
OpenClaw (369K ★) стоит особняком. Это не чисто кодинг-агент, а, скорее, персональный AI-ассистент с мультиканальным Gateway (23+ каналов: WhatsApp, Telegram, Slack, Discord, Signal, iMessage и др.). Агентный движок построен на Pi-agent SDK. Влияние ОткрытойКлешни на экосистему кодинг-агентов колоссально: именно OpenClaw с его 369 тысячами звёзд популяризировал TUI-интерфейс среди массовой аудитории, а его система навыков ClawHub (5400+ skills) задала стандарт для реестров агентных умений. Плагины совместимы с форматами Codex/Claude/Cursor. Если Pi-agent — эталонный harness, то OpenClaw — эталон того, как этот harness развернуть в продакшене.
Выбор агента — вопрос привычек (CLI/IDE/Web) и языка реализации. Выбор API — вопрос доступности, цены и качества модели для конкретной задачи. Специализированных российских AI-агентов для работы с кодом по состоянию на май 2026 не существует. YandexGPT и GigaChat — LLM общего назначения, не agentic tools. Адаптация open-source решений (Cline, Aider, Qwen Code) с локальными моделями или российскими API-провайдерами — основной путь для разработчиков и вайб-кодеров в РФ.
А внутри у ней - нейронка: плагин, память и контекст
Вы собрали связку «агент + API» и она работает. Но со временем приходит понимание: агент, который после каждой сессии «забывает» всё на свете — это пол-агента. Ему нужна память, причем такая, которая не сжигает все контекстное окно еще до старта задачи. Ему нужны инструменты, хорошо бы мониторируемые и логируемые - для пущей точности и контроля. Не лишним будет распараллеливание работы, запуск отдельных суб-агентов, такск-трекинг для всего этого зоопарка. Для простых ребят, не владеющих тайным мастерством программирования с помощью естественного интеллекта (вроде меня), желательно, чтобы эти инструменты кто-то уже написал.
К счастью, вокруг каждого крупного агента выросла экосистема.
Рынок плагинов и скиллов
Самый раздутый маркетплейс — ClawHub у OpenClaw. 5400+ скиллов, 52 тысячи инструментов, 180 тысяч пользователей, 12 миллионов загрузок. Категории от self-improving agent до security и dashboard builder. Публиковать может любой пользователь GitHub — прямо сейчас тысячи вайбкодеров пишут свои пул реквесты.
У Claude Code — официальный маркетплейс от Anthropic. Несколько десятков официальных плагинов (code-review, feature-dev, plugin-dev, hookify, pr-review-toolkit), плюс возможность создавать приватные маркетплейсы для команд. В отличие от плагинов сообщества для других агентов (где качество не гарантируется), у Антропиков все супер сурьезно: полноценные бандлы с командами, агентами, хуками, скиллами и MCP-конфигами.
Pi-agent пошёл другим путём. Вместо маркетплейса — npm-пакеты (Pi Packages) и система Extensions на TypeScript. Extensions регистрируют произвольные инструменты, команды, хоткеи, UI-компоненты, обработчики событий. Можно заменить встроенные инструменты, добавить sub-agents, plan mode, permission gates. Философия pi: «ничего не встроено — всё расширяемо».
Cline — погружение в вайбкодинг-дзен: агент сам создаёт MCP-серверы из чата. Говорите «добавь инструмент, который…» — и Cline пишет, устанавливает и подключает новый MCP-сервер. Без программирования, без конфигов вручную.
Стандарты конвергируют. MCP (Model Context Protocol) стал универсальным языком подключения инструментов — 85K звёзд, 10K форков, тысячи community-серверов. AgentSkills (SKILL.md) — стандарт для скиллов, совместимый между Pi, Claude Code, Cline, OpenCode. Плагинные форматы пересекаются: OpenCode читает bundle-плагины Codex/Claude/Cursor. Как правило плагины/скиллы/тулзы опенсорсны и бесплатны, но уже появляется рынок коммерческих MCP-серверов.
Память агента — иногда за нее нужно платить
Агент который знает и помнит все про вашу машину, про вас, про ваши привычки и стиль написания текстов (машинных и человечных). Страшно… очень страшно… Но значительной части юзеров именно это и надо. Чтобы агент поддерживал стиль общения, помнил, над чем вы с ним работаете, дольше одной сессии, был чтобы таким Джарвисом у Железного Человека. Для этого нужна память. И тут главный вопрос, как сделать так, чтобы обращения к памяти не съедали драгоценные токены и не сжигали чуть менее драгоценный контекст. Дело не простое и вайбкодингу малоподдающееся (тут реально надо быть ML-инженером).
Mem0 (55K ★, Apache 2.0) — де-факто стандарт. Извлекает и хранит пользовательские предпочтения, факты, контекст. Алгоритм v3 (апрель 2026): single-pass экстракция, entity linking, multi-signal retrieval (семантический + BM25 + entity matching). Бенчмарки: 91.6 на LoCoMo, 93.4 на LongMemEval. Есть self-hosted версия — pip install mem0ai или docker compose up. Встроен в OpenCode, поддерживает MCP.
Letta (ex-MemGPT, 22.5K ★) — self-editing memory: агент сам обновляет свою память. Архивная память + recall для восстановления контекста из долгосрочной. Есть собственный агент, есть инструмент памяти по API.
LangMem (MIT) — Memory SDK для LangGraph-агентов, встраивается в существующие пайплайны.
Векторные базы как фундамент памяти
Любое memory-решение опирается на векторную БД. Milvus (44K ★), Qdrant (31K ★), ChromaDB (28K ★), Weaviate (16K ★) — все open-source, все разворачиваются локально в Docker, все бесплатны. Qdrant умеет квантовать векторы с экономией RAM до 97%. ChromaDB встроена в Mem0 по умолчанию. Milvus — выбор для промышленных масштабов (10B+ векторов).
Экосистема расширений — то, что превращает агента из игрушки в инструмент. Плагины и скиллы добавляют способности. Memory-решения добавляют контекст между сессиями. Векторные БД — фундамент. Почти всё open-source и работает локально — российскому пользователю здесь вольготно.
Полный суверенитет и абсолютное погружение: локальный инференс
Вы преисполнились. Вам мало облачных API. Хочется, чтобы модель работала на вашем железе, без интернета, без лимитов, без оглядки на чужие серверы. Все - мы в стадии локального развертывания БЯМ. Здесь три составляющих: где брать модели, чем их запускать и на чём их запускать. Ответ на последний вопрос суперпростой - на чем угодно. Современные модели постояннно оптимизируются под «слабенькие» железки, снижают требования к объему памяти и вычислительной мощности квантизацией и ротацией активных параметров. Видеокарта НЕ обязательна - большинство инструментов запуска (почти у всех под капотом llama.cpp) прекрасно работает как с GPU, так и со связкой CPU+RAM. Отсюда стандартный вывод: много оперативы не бывает.
Репозитории моделей
Главный хаб планеты — Hugging Face. 2 миллиона моделей. Доступен из России без VPN (май 2026). Некоторые российские аккаунты удалены, но сам сайт открыт. При больших загрузках может барахлить без VPN.
ModelScope — китайский аналог HF от Alibaba. Эксклюзивные китайские модели, которых нет на Hugging Face.
Ollama Library — встроенный реестр моделей для инструмента Ollama.
CivitAI — репозиторий моделей для генерации изображений (Stable Diffusion, Flux).
Собственного российского репозитория нет. Российские открытые модели — это практически исключительно экосистема Сбера (GigaChat, ruGPT, Kandinsky), выложенные организацией ai-sage на Hugging Face. Яндекс веса не публикует.
Инструменты запуска
llama.cpp (109K ★) — фундамент всего. Чистый C++, без внешних зависимостей. Компилируется под всё: от серверной стойки с 8×H100 до Android-телефона. Поддерживает 200+ архитектур, квантование от 1.5 до 8 бит. Multi-node через RPC — можно распределить инференс по сети. OpenAI-совместимый API-сервер. Но: требует компиляции из исходников.
Ollama (109K ★) — проприетарная обёртка над llama.cpp, доведённая до состояния «скачал и заработало». Одна команда ollama run llama3 — и модель отвечает. Есть платный облачный уровень Pro/Max. Идеальный старт для тех, кто не хочет ковыряться в исходниках.
vLLM (79.3K ★) — инструмент для продакшена. Python, PagedAttention, continuous batching. Максимальная пропускная способность при массовых запросах. Multi-node, множество форматов квантования. pip install vllm — и поехали. Основная платформа — Linux с GPU.
LM Studio — десктопное приложение с GUI. Встроенный каталог моделей: выбрал → скачал → запустил. OpenAI-совместимый API из коробки. LM Link (апрель 2026) — возможность подключаться к удалённым инстансам. Бесплатно для личного использования.
GPT4All — десктоп + Python API. LocalDocs — чат с вашими документами без интернета. Vulkan-ускорение на INTEL, NVIDIA и AMD.
TextGen (oobabooga) — веб-интерфейс на Gradio. Multimodal, LoRA-тренировка, генерация изображений, TTS. 100% оффлайн.
KoboldCpp — один исполняемый файл. Внутри: LLM + генерация изображений + генерация видео + распознавание речи + синтез речи + генерация музыки. Есть UI для ролевых игр.
MLX (github.com) — фреймворк от Apple для Apple Silicon. NumPy-подобный Python API, unified memory. Идеален для владельцев Mac.
llama.rn — мобильный инференс. React Native-обёртка над llama.cpp для iOS (Metal) и Android (OpenCL/NPU).
Российских инструментов для локального инференса нет. Российские модели запускаются через международные инструменты — те же GGUF-квантизации GigaChat 3.1 работают в llama.cpp и Ollama без проблем.
Напоследок
Является ли этот гайд/обзор полным и исчерпывающим? Конечно нет. Во первых все онлан-чятики, провайдеров API, кодинг-агентов, различных около-ИИшных утилит и инструментов - не переназвать. Во ворых отрасль развивается очень быстро, и также быстро устареет этот материал. Где-то в середине лета выйдут новые крупные западные и китайские модели (скриньте этот твит). Скорее всего, еще раньше появится новая «хайповая» тема - навроде OpenClaw в начале этого года. Но парой вещей эта портянка ценна: она описывает логику знакомства обычного работяги с БЯМами, плюс тут очень много ссылочек на всяческую халяву и опен-сорц. Надеюсь, вам пригодится.
PS: В материале было много сравнительных табличек чатов, агентов, провайдеров и инструментов запуска. Вот только движок ЛОРа ни в какую не позволяет скрещивать Markdown с HTML и прятать фрагменты под кат. Так что, если надо, вот тут навалено аналитики


