LLM: какие бывают? Где брать? Как пользоваться?

Во первых строках

Май 2026. Большие языковые модели перестали быть диковинкой. И даже на ЛОРе под аккомпанимент из ворчания «старичков» появился раздел про ИИшечку. Правда, выясняется, что далеко не все даже в технарском сообществе знают, что собой предтавляет современный ландшафт ЛЛМок: что они умеют, как их применяют, зачем они вообще нужны.

Серьезно усложняет погружение в актуальный контекст (в человеческом смысле слова) уникальный «русский путь»: блокировки со стороны западных разработциков и провайдеров, блокировки от родного РКН и (с недавних пор) ФСБ. Отсюда следуют: платёжные ограничения, обилие китайских альтернатив, собственные разработки Яндекса и Сбера как бенчмарк и пример LLM ( последний пункт - это очень, очень плохо).

Поэтому в недрах моей черепной коропки и на серверах Shēndù Qiúsuǒ (в большей степени) родился следующий текст. Он о том, как большинство пользователей знакомится с БЯМами, какие этапы в работе с модельками проходит, и какие есть варианты выбора в море способов взаимодействия с очень Искусственным не очень Интеллектом.

Двигаемся по уровням погружения.

Первое касание: веб-чаты

Вы только знакомитесь с LLM. У вас нет ни API-ключа, ни желания разбираться с токенами и эндпоинтами. Нужна вкладка в браузере, куда можно написать вопрос и получить ответ. Благо, в 2026 году вариантов — море. Начнём с того, что доступно прямо здесь и сейчас, без обмазывания проксями и ВПНами, бесплатно, иногда с СМС.

DeepSeek — главный хит среди китайских чатов. Регистрация по email, с апреля - модель V4-Pro с контекстным окном в миллион токенов. Работает только с текстом и файлами, генерации изображений нет. Бесплатно.

Qwen Chat от Alibaba — если хочется мультимодальности. Генерация изображений? Встроена. Видеопонимание? Пожалуйста. Голосовой ввод? Есть. Qwen Studio позволяет переключаться между разными версиями моделей. Есть мостик к тем самым кодинг-агентам (о них позже) - кодинг-режим прямо из веб-интерфейса. С возможность подключения своего git-репо, с работой в git-образном окошке.

Kimi от Moonshot AI навалил массу фич прямо в веб интерфейс. Тут и кодинг-окошко, и конструктор сайтов. И даже мечта офисного работника - автогенерация презенташек. Загрузил документ — получил готовый PPT.

Doubao (ByteDance) делает ставку на голосовой диалог — естественную речь, AI-персонажей, экосистему TikTok. Можно делать картинки, переводить тексть, выполнять домашку. Модно, молодежно, для неразвлекательных целей - малоприменимо.

Ernie Bot (Baidu) и Spark (iFlytek) — ещё два китайских товарища. Ernie щеголяет плагинами и интеграцией с поиском Baidu, Spark — лучшими в Китае голосовыми технологиями и мультяшными цифровыми аватарками. Для российского пользователя - не особо полезно.

z.ai — Хороший базовый набор в веб-чате: генерация текстов, слайдов, таблиц, дашбордов, кода. Из России работает нестабильно, могут не работать некоторые функции. Годится в качестве тест-режима модельки GLM-5.1 перед покупкой API-ключа.

MiniMax — Комбайн в вебе: тут и «агенты», и «скиллы», и создание артефактов от табличек до видео. Фишка - режим «Эксперты»: режим диалога с моделью системными промптами и MCP заточенной под конкретные задачи. Раньше много было бесплатно, теперь эти функции - в месячном «триале» перед базовой подпиской.

StepFun / 阶跃AI — Дипсик на минималках. Примечателен бешеным количеством рекламы: продвигают свой форк OpenClaw и API-подписку к нему.

Все эти чаты доступны из России без VPN. Минус: часть требует китайский номер для регистрации.

Российские решения — варианта два и оба так себе: YandexGPT aka AlisaAI и GigaChat. Отстают от флагманов западного моделестроения очень сильно. Для серьезной работы (по крайней мере, с текстами, картинками и видео) - почти не пригодны. Но плюcы, конечно есть. Русский язык для них родной. YandexGPT встроен в поиск Яндекса, в Алису, в сервис «Яндекс 300» (гусары,молчать!) - краткий пересказ статей, подкастов и видео. GigaChat от Сбера умеет генерировать изображения (Kandinsky) прямо в чате. Оба работают без VPN, Яндекс еще и доступен при режиме «белых списков» (почти всегда), принимают российские карты для премиум-функций.

А теперь — веб-чаты, которые без VPN не открываются: ChatGPT, Claude, Gemini, Grok, Perplexity, Mistral, Microsoft Copilot, запрещенная и экстремистская Meta AI. Это западные флагманы. У каждого — арсенал уникальных фич: Artifacts у Claude, Canvas и GPTs у ChatGPT, Perplexity с полным цитированием источников. Есть все, что и у web-реализаций из Поднебесной и с горкой. Но дверь заперта. Нужны VPN и, для платных подписок, иностранная карта. Досадно, но ладно.

Коготок (claw) застрял - всей птичке пропасть: связка Агент + API

Вы распробовали чаты. Теперь хочется большего: чтобы нейросеть работала с кодом, файловой системой, терминалом. Чтобы сама коммитила в Git, открывала PR, запускала тесты. Сделала rm -rf /*, наконец. Для этого нужны две вещи: агент(к агентности в философском или daemon смысле не имеет никакого отношения, просто так повелось называть) - это софт, который оркестрирует взаимодействие и предоставляет инструметы расширяюшие или ограничивающие работу модели и API-провайдер - тот, кто поставляет доступ к самой LLM, развернутой на серверах китайских товарищей или буржуйских супостатов.

Поставщики «мозгов» бывают двух сортов

Вендоры — разработчики моделей: OpenAI, Anthropic, Google (бесплатные flash-модели по API!!!), DeepSeek, Alibaba (Qwen), Z.ai API, MiMo (Xiaomi). У них прямой доступ к собственным моделям. Агрегаторы — посредники, собирающие модели от разных вендоров под одной крышей: OpenRouter есть бесплатный план, DeepInfra, Together AI, Groq есть бесплатный план, Fireworks AI, OpenCode (Zen/Go) есть бесплатный план, Cerebras есть бесплатный план. Список можно продолжать и продолжать, заканчивая помойками-однодневками от успешных васянов с ветхими стойками в древних ЦОДах. Отмечу, многие из агрегаторов не только продают доступ к общим инференс-инстансам, для солидных господ есть предложения о покупке отдельного инстанса или, натурально, выделенного вычислительного кластера для рассупонивания модельки.

Отдельного упоминания стоит nVidia - эти ребята производят не только лучшие GPU и NPU на сегодняшний день, они еще и файн-тюнят открытые модельки, предоставляют API и держат репозиторий открытых моделей (что это и зачем - дальше по тексту). Почти все провайдеры требуют иностранную карту. Но есть обходные пути: оформление иностранных карт, посредники с разнообразных платежных сервисов (тысячи их), старая добрая крипта.

Российские вендоры YandexGPT и GigaChat тоже предоставляют доступ к моделькам через API. Полная поддержка российских карт, данные на серверах в РФ. GigaChat даёт 1M токенов бесплатно при регистрации. Кто-то пользуется.

Агенты: open-source и проприетарные

Агент — это программа, которая превращает LLM из собеседника в деятеля. Агент читает код, пишет файлы, запускает команды, ищет в интернете, подключается к базам данных. Его принято ставить в Doker’ы, на виртуалки, на отдельные ПК (все любят MAC mini). На самом деле, если вы не кулхацкер, то для задач регулярной генерации текстов, создания скриптов для локальных автоматизаций, кодинга своего уютного сайтика - вполне можно разворачивать локально на машинке в юзер-директории (большинство агентов сами вам напомнят, что надо высовывать в сеть, а что нет, и в каких случаях). Так или иначе, все инструменты из нашего обзора делятся на три лагеря:

Open-source агенты:

OpenCode (150K ★) — CLI/Desktop/IDE/Web. TypeScript. Поддерживает 75+ провайдеров, включая локальные модели. Может работать в headless-режиме. Кроссплатформенный. Универсальный. Cline (61.5K ★) — расширение VS Code. MCP из коробки, умеет генерировать MCP-серверы прямо из чата. Подтверждение каждого действия (human-in-the-loop). Kilocode (19K ★) — позиционируется как «инженерная платформа», кроссплатформенный, расширенный функции автоматизации/ выполнения циклических задач. Aider (44.5K ★) — CLI, Python. Фишка: Repomap — карта репозитория для навигации модели. Qwen Code (24K ★) — CLI от Alibaba. Заточен под семейство Qwen, но работает с любыми моделями. Поддержка Skills и SubAgents. Roo Code (24K ★) — форк Cline с фокусом на кастомизацию режимов. Поддерживает русский язык в интерфейсе. LangChain, CrewAI, AutoGPT, MetaGPT, Qwen Agent — фреймворки для построения собственных агентных систем. От библиотек до платформ с marketplace. Pi-agent (45.8K ★) — минималистичный terminal-based harness от Mario Zechner. Философия: «адаптируй pi под себя, а не наоборот». Собственный TUI-движок. Не поддерживает MCP принципиально — всё необходимое строится через extensions. По сути — эталонный каркас для построения LLM-агентов: на его SDK построен, в частности, OpenClaw.

Проприетарные агенты:

Claude Code (Anthropic) — терминальный AI-разработчик. Автономная работа с кодом, коммиты, PR. Но: в РФ нужен и VPN, и иностранная карта. Худшая доступность. VS Code — база. Минималистичный, расширяемый. Самый распространённый. GitHub Copilot - это по сути то же самое. Cursor — AI IDE (форк VS Code). Composer 2, сверхточное автодополнение, облачные агенты. Windsurf — ещё один agentic IDE. Cascade (локальный агент) + Devin (облачный). Agent Command Center — канбан-доска для управления агентами. Antigravity (Google) — десктоп-приложение. Регионально ограничен, но сообщество поддерживает open-antigravity-patcher для обхода блокировок в РФ.

Агенты общего назначения стоят особняком от кодинг-агентов. Это не встройка в IDE и не CLI-утилита для работы с репозиторием — это персональные ассистенты, которые живут на вашем сервере/локальной машине, помнят контекст между сессиями и доступны через Telegram, Discord, Slack и другие каналы.

OpenClaw (369K ★) — лидер среди ассистентов общего назначения (см. таблицу 2.4). Это не чисто кодинг-агент, а персональный AI-ассистент с мультиканальным Gateway (24+ каналов). Агентный движок построен на Pi-agent SDK. Влияние на экосистему колоссально: именно OpenClaw популяризировал TUI-интерфейс среди массовой аудитории, а его система навыков ClawHub (5400+ skills) задала стандарт для реестров агентных умений.

Hermes Agent (104K ★) — самообучающийся агент от Nous Research. Создаёт reusable skills из опыта, улучшает их в процессе работы. Встроенный cron-планировщик, субагенты, браузерная автоматизация. 18+ LLM-провайдеров.

Важный нюанс: почти все агенты — «агностики». Они не привязаны к конкретному вендору. Вы можете направить Cline на OpenRouter, Aider — на DeepSeek API, OpenCode — на локальную Ollama. Связка выбирается под задачу и бюджет. Исключения: Claude Code работает только с моделями Anthropic; Qwen Code оптимизирован под Qwen, но принимает и другие эндпоинты.

Выбор агента — вопрос привычек (CLI/IDE/Web) и языка реализации. Выбор API — вопрос доступности, цены и качества модели для конкретной задачи. Специализированных российских AI-агентов для работы с кодом по состоянию на май 2026 не существует. YandexGPT и GigaChat — LLM общего назначения, не agentic tools. Адаптация open-source решений (Cline, Aider, Qwen Code) с локальными моделями или российскими API-провайдерами — основной путь для разработчиков и вайб-кодеров в РФ.

А внутри у ней - нейронка: плагин, память и контекст

Вы собрали связку «агент + API» и она работает. Но со временем приходит понимание: агент, который после каждой сессии «забывает» всё на свете — это пол-агента. Ему нужна память, причем такая, которая не сжигает все контекстное окно еще до старта задачи. Ему нужны инструменты, хорошо бы мониторируемые и логируемые. Не лишним будет распараллеливание работы, запуск отдельных суб-агентов. Для простых ребят, не владеющих тайным мастерством программирования, желательно, чтобы эти инструменты кто-то уже написал.

К счастью, вокруг каждого крупного агента выросла экосистема. И она быстро конвергирует к единым стандартам.

Рынок плагинов и MCP-серверы

Плагины расширяют функциональность агента — дают доступ к файловой системе, базам данных, API, браузеру, терминалу. Без плагинов агент умеет только генерировать текст.

MCP (Model Context Protocol) стал универсальным стандартом подключения инструментов. Репозиторий modelcontextprotocol/servers — 85K звёзд, 10K форков, тысячи community-серверов. MCP работает через stdio или HTTP/SSE, позволяет подключить любой внешний инструмент без написания кода внутри самого агента.

Самый раздутый маркетплейс — ClawHub у OpenClaw. 5400+ скиллов, 52 тысячи инструментов, 180 тысяч пользователей, 12 миллионов загрузок. У Claude Code — официальный маркетплейс от Anthropic — 13 официальных плагинов. Cline — агент сам создаёт MCP-серверы из чата.

Реестры MCP-серверов: Smithery — Большой пул MCP общего назначения: поисковые, аналитика по блокчейнам, астрологические прогнозы. Бесплатно 50 000 вызовов в месяц.

, PulseMCP — Агрегатор MCP - сам доступ не раздает. Все серверы свалены в кучу, не для всех опубликованы эндпоинты (т.е. нашел какой-то MCP - идешь к провайдеру и смотришь как привязаться).

, MCPM — Фишка - есть свой «MCP Manager». Инструмент интегрируется с «ассистентами» и «кодинг-агентами» позволяет искать и настраивать MCP без походов по сайтам и репозиториям.

Скиллы (Skills)

Скилл — это не код, а инструкция + контекст. Файл SKILL.md с YAML frontmatter описывает, что агент должен делать в определённой ситуации. Модель сама решает, когда активировать скилл.

Главное отличие от плагинов: плагин добавляет новый инструмент (функцию, API-вызов), скилл добавляет новые знания и поведенческие паттерны. Скилл не требует программирования — это markdown-файл с инструкциями.

Стандарт AgentSkills (SKILL.md) — совместим между Pi, Claude Code, Cline, OpenClaw, OpenCode. YAML frontmatter содержит name, description, triggers — по ним модель определяет, какой скилл применить.

Контекст-файлы

Помимо плагинов и скиллов, поведение агента задаётся через markdown-файлы в директории проекта. Самый простой способ «настроить» агента без единой строчки кода:

Файл	Назначение	Где используется
AGENTS.md	Общие инструкции для всех агентов в проекте	OpenClaw, Cline, Codex, Cursor и др.
SOUL.md	Личность, стиль общения, ценности агента	OpenClaw, Hermes Agent
TOOLS.md	Описание доступных инструментов	OpenClaw
USER.md	Профиль пользователя: предпочтения, стиль	Hermes Agent, OpenClaw, и др.
MEMORY.md	Долговременная память агента	Hermes Agent
.clinerules	Правила поведения для Cline	Cline
.cursorrules	Правила поведения для Cursor	Cursor

Эти файлы автоматически подхватываются агентом при старте сессии и инжектируются в системный промпт. Их можно версионировать в Git.

Память агента — иногда за нее нужно платить

Агент который знает и помнит все про вашу машину, про вас, про ваши привычки. Страшно… очень страшно… Но значительной части юзеров именно это и надо. Чтобы агент поддерживал стиль общения, помнил, над чем вы с ним работаете, дольше одной сессии.

Типы памяти: session (внутри одной сессии), cross-session (предпочтения между сессиями), long-term / archival (архив с recall-механизмом).

Mem0 (55K ★, Apache 2.0) — де-факто стандарт. Алгоритм v3 (апрель 2026): single-pass ADD-only экстракция, entity linking, multi-signal retrieval. Бенчмарки: 91.6 на LoCoMo, 93.4 на LongMemEval. Self-hosted: pip install mem0ai или docker compose up.

Letta (ex-MemGPT, 22.5K ★) — self-editing memory: агент сам обновляет свою память. Архивная память + recall.

LangMem (MIT) — Memory SDK для LangGraph-агентов.

Векторные базы как фундамент памяти

Любое memory-решение опирается на векторную БД. Для продвинутых пользователей — возможность развернуть свой memory backend без готовых решений.

Milvus (44K ★), Qdrant (31K ★), ChromaDB (28K ★), Weaviate (16K ★) — все open-source, все разворачиваются локально в Docker, все бесплатны.

Когда нужна векторная БД: если вы строите RAG-систему, работаете с большими документами, или хотите кастомную память агента с семантическим поиском. Для большинства пользователей достаточно Mem0 (self-hosted) с ChromaDB — это минимум кода и максимум результата.

Экосистема расширений — то, что превращает агента из игрушки в инструмент. Плагины и скиллы добавляют способности. Memory-решения добавляют контекст между сессиями. Векторные БД — фундамент. Почти всё open-source и работает локально — российскому пользователю здесь вольготно.

Полный суверенитет и абсолютное погружение: локальный инференс

Вы преисполнились. Вам мало облачных API. Хочется, чтобы модель работала на вашем железе, без интернета, без лимитов, без оглядки на чужие серверы. Все - мы в стадии локального развертывания БЯМ. Здесь три составляющих: где брать модели, чем их запускать и на чём их запускать. Ответ на последний вопрос суперпростой - на чем угодно. Современные модели постояннно оптимизируются под «слабенькие» железки, снижают требования к объему памяти и вычислительной мощности квантизацией и ротацией активных параметров. Видеокарта НЕ обязательна - большинство инструментов запуска (почти у всех под капотом llama.cpp) прекрасно работает как с GPU, так и со связкой CPU+RAM. Отсюда стандартный вывод: много оперативы не бывает.

Репозитории моделей

Главный хаб планеты — Hugging Face. 2 миллиона моделей. Доступен из России без VPN (май 2026). Некоторые российские аккаунты удалены, но сам сайт открыт. При больших загрузках может барахлить без VPN.

ModelScope — китайский аналог HF от Alibaba. Эксклюзивные китайские модели, которых нет на Hugging Face.

Ollama Library — встроенный реестр моделей для инструмента Ollama.

CivitAI — репозиторий моделей для генерации изображений (Stable Diffusion, Flux).

Собственного российского репозитория нет. Российские открытые модели — это практически исключительно экосистема Сбера (GigaChat, ruGPT, Kandinsky), выложенные организацией ai-sage на Hugging Face. Яндекс веса не публикует.

Инструменты запуска

llama.cpp (109K ★) — фундамент всего. Чистый C++, без внешних зависимостей. Компилируется под всё: от серверной стойки с 8×H100 до Android-телефона. Поддерживает 200+ архитектур, квантование от 1.5 до 8 бит. Multi-node через RPC. OpenAI-совместимый API-сервер.

Ollama (109K ★) — проприетарная обёртка над llama.cpp, доведённая до состояния «скачал и заработало». Одна команда ollama run llama3 — и модель отвечает. Есть платный облачный уровень Pro/Max.

vLLM (79.3K ★) — инструмент для продакшена. Python, PagedAttention, continuous batching. Максимальная пропускная способность при массовых запросах. Multi-node. pip install vllm — и поехали.

SGLang (18K ★) — инференс-комбайн на Питоне. Есть отдельный режим оптимизации запуска на CPU-only сборках.

ExLlamaV3 (4.5K ★) — простое решение для простых моделек. Заявлена оптимизация под инференс на потребительских видеокарточках.

TensorRT-LLM (12K ★) — инференс-решение от nVidia - нуф сказал

LM Studio — десктопное приложение с GUI. Встроенный каталог моделей: выбрал → скачал → запустил. OpenAI-совместимый API из коробки. Бесплатно для коммерческого использования.

Open WebUI (137K ★, 290M+ загрузок) — комбайн для запуска модели сразу с интерфейсом. Подхватывает мультимодальные модельки и дает им интерфейсы для создания картинок, звуков видео. По сути инструмент инференса+сервер+агент в одном флаконе.

Jan (82K ★) — просто чятик, который можно оживить оптимизированными Qwen-модельками или, через небольшие танцы с бубном, любой моделькой.

LocalAI (26K ★) — Очередной комбайн «для всего». Особенность: поддерживается куча бэкенд-версий, отсюда теоретическая возможность запуска почти на любом относительно современном железе. Есть CPU-only

Когда что выбирать:

Просто запустить модель → Ollama (ollama run llama3) или LM Studio (GUI)
Максимум контроля → llama.cpp напрямую (C++, квантование, все платформы)
Продакшен с высокой нагрузкой → vLLM (универсальный) или SGLang (RAG/multi-turn, структурированный вывод)
Полноценная self-hosted платформа → Open WebUI поверх Ollama/vLLM (multi-user, RAG, MCP, функции)
Apple Silicon → MLX (разработан Apple, нативная оптимизация)
Максимум на NVIDIA → TensorRT-LLM (H100/B200, FP4)

Российских инструментов для локального инференса нет. Российские модели запускаются через международные инструменты — те же GGUF-квантизации GigaChat 3.1 работают в llama.cpp и Ollama без проблем.

Напоследок

Является ли этот гайд/обзор полным и исчерпывающим? Конечно нет. Во первых все онлан-чятики, провайдеров API, кодинг-агентов, различных около-ИИшных утилит и инструментов - не переназвать. Во ворых отрасль развивается очень быстро, и также быстро устареет этот материал. Где-то в середине лета выйдут новые крупные западные и китайские модели (скриньте этот твит). Скорее всего, еще раньше появится новая «хайповая» тема - навроде OpenClaw в начале этого года. Но парой вещей эта портянка ценна: она описывает логику знакомства обычного работяги с БЯМами, плюс тут очень много ссылочек на всяческую халяву и опен-сорц. Надеюсь, вам пригодится.

UPD: 17 мая 2026 года. Учтены замечания в комментариях: добавлены z.ai, minimax и другие модели и провайдеры. Добавлены инструменты Copilot и Codex. Переработан блок с плагинами и скиллами, добавлено описание контекст-файлов. Значительно обновлен раздел про инференс.

Ссылка

← 1 2 3 →

Ответ на: комментарий от LightDiver 17.05.26 14:49:40 MSK

Нет, в толксы пишут потому что хотят пофлудить. А если не разобрался - то в General.

firkax ★★★★★
(17.05.26 14:57:43 MSK)

Ответ на: комментарий от water_closed 17.05.26 14:03:13 MSK

как ее прикрутить к схеме типа Client <-> API <-> Backend

Хорошо спросил. Но эта тема - отдельная и большая. Простейший вариант такой схемы - пресловутый Open WebUI или любой другой комбайн.

Как настроить оркестрацию и тулзы у разных провайдеров

Вот тут и я не настоящий сварщик. Ручками это делать не умею. Многие инструменты сами спрашивают себе эндпоинт. Если так, то все просто: API твоей подписки + конкретный адрес вызова (в документации провайдера обычно все прописано).

ivbor
(18.05.26 06:50:28 MSK) автор топика

Ответ на: комментарий от LightDiver 17.05.26 14:42:42 MSK

Хейтеры будут хейтить. Но реальность такова, что ИИ-шные сервисы и инструменты - это уже мейнстрим. Я это понял года 1,5 - 2 назад, когда в топе моделек на HuggingFace были сплошь генеративные сетки разлоченные для создания порнокартинок. Если главная отрасль Интернета подхватила технологию, значит она уже успешна.

Сегодня на работе утро началось с удивления. Битрикс вкрутил ИИ-агента. Теперь это «Битрикс24 Вайбкод».

ivbor
(18.05.26 06:55:35 MSK) автор топика

28 июня 2026 г.

Ничего не понял. Вот мне, например, надо чтобы кто-то ходил на сайт «Правды» и мониторил: не появилась ли новая статья о деятельности третьего Интернационала? Если появилась, то отсылает её для анализа Gemini. Кто это будет делать?

Stalin ★★★★★
(28.06.26 04:50:21 MSK)