LINUX.ORG.RU

LLM: какие бывают? Где брать? Как пользоваться?

 ,


7

4

Во первых строках

Май 2026. Большие языковые модели перестали быть диковинкой. И даже на ЛОРе под аккомпанимент из ворчания «старичков» появился раздел про ИИшечку. Правда, выясняется, что далеко не все даже в технарском сообществе знают, что собой предтавляет современный ландшафт ЛЛМок: что они умеют, как их применяют, зачем они вообще нужны.

Серьезно усложняет погружение в актуальный контекст (в человеческом смысле слова) уникальный «русский путь»: блокировки со стороны западных разработциков и провайдеров, блокировки от родного РКН и (с недавних пор) ФСБ. Отсюда следуют: платёжные ограничения, обилие китайских альтернатив, собственные разработки Яндекса и Сбера как бенчмарк и пример LLM ( последний пункт - это очень, очень плохо).

Поэтому в недрах моей черепной коропки и на серверах Shēndù Qiúsuǒ (в большей степени) родился следующий текст. Он о том, как большинство пользователей знакомится с БЯМами, какие этапы в работе с модельками проходит, и какие есть варианты выбора в море способов взаимодействия с очень Искусственным не очень Интеллектом.

Двигаемся по уровням погружения.


Первое касание: веб-чаты

Вы только знакомитесь с LLM. У вас нет ни API-ключа, ни желания разбираться с токенами и эндпоинтами. Нужна вкладка в браузере, куда можно написать вопрос и получить ответ. Благо, в 2026 году вариантов — море. Начнём с того, что доступно прямо здесь и сейчас, без обмазывания проксями и ВПНами, бесплатно, иногда с СМС.

DeepSeek — главный хит среди китайских чатов. Регистрация по email, с апреля - модель V4-Pro с контекстным окном в миллион токенов. Работает только с текстом и файлами, генерации изображений нет. Бесплатно.

Qwen Chat от Alibaba — если хочется мультимодальности. Генерация изображений? Встроена. Видеопонимание? Пожалуйста. Голосовой ввод? Есть. Qwen Studio позволяет переключаться между разными версиями моделей. Есть мостик к тем самым кодинг-агентам (о них позже) - кодинг-режим прямо из веб-интерфейса. С возможность подключения своего git-репо, с работой в git-образном окошке.

Kimi от Moonshot AI навалил массу фич прямо в веб интерфейс. Тут и кодинг-окошко, и конструктор сайтов. И даже мечта офисного работника - автогенерация презенташек. Загрузил документ — получил готовый PPT.

Doubao (ByteDance) делает ставку на голосовой диалог — естественную речь, AI-персонажей, экосистему TikTok. Можно делать картинки, переводить тексть, выполнять домашку. Модно, молодежно, для неразвлекательных целей - малоприменимо.

Ernie Bot (Baidu) и Spark (iFlytek) — ещё два китайских товарища. Ernie щеголяет плагинами и интеграцией с поиском Baidu, Spark — лучшими в Китае голосовыми технологиями и мультяшными цифровыми аватарками. Для российского пользователя - не особо полезно.

z.ai — Хороший базовый набор в веб-чате: генерация текстов, слайдов, таблиц, дашбордов, кода. Из России работает нестабильно, могут не работать некоторые функции. Годится в качестве тест-режима модельки GLM-5.1 перед покупкой API-ключа.

MiniMax — Комбайн в вебе: тут и «агенты», и «скиллы», и создание артефактов от табличек до видео. Фишка - режим «Эксперты»: режим диалога с моделью системными промптами и MCP заточенной под конкретные задачи. Раньше много было бесплатно, теперь эти функции - в месячном «триале» перед базовой подпиской.

StepFun / 阶跃AI — Дипсик на минималках. Примечателен бешеным количеством рекламы: продвигают свой форк OpenClaw и API-подписку к нему.

Все эти чаты доступны из России без VPN. Минус: часть требует китайский номер для регистрации.

Российские решения — варианта два и оба так себе: YandexGPT aka AlisaAI и GigaChat. Отстают от флагманов западного моделестроения очень сильно. Для серьезной работы (по крайней мере, с текстами, картинками и видео) - почти не пригодны. Но плюcы, конечно есть. Русский язык для них родной. YandexGPT встроен в поиск Яндекса, в Алису, в сервис «Яндекс 300» (гусары,молчать!) - краткий пересказ статей, подкастов и видео. GigaChat от Сбера умеет генерировать изображения (Kandinsky) прямо в чате. Оба работают без VPN, Яндекс еще и доступен при режиме «белых списков» (почти всегда), принимают российские карты для премиум-функций.

А теперь — веб-чаты, которые без VPN не открываются: ChatGPT, Claude, Gemini, Grok, Perplexity, Mistral, Microsoft Copilot, запрещенная и экстремистская Meta AI. Это западные флагманы. У каждого — арсенал уникальных фич: Artifacts у Claude, Canvas и GPTs у ChatGPT, Perplexity с полным цитированием источников. Есть все, что и у web-реализаций из Поднебесной и с горкой. Но дверь заперта. Нужны VPN и, для платных подписок, иностранная карта. Досадно, но ладно.


Коготок (claw) застрял - всей птичке пропасть: связка Агент + API

Вы распробовали чаты. Теперь хочется большего: чтобы нейросеть работала с кодом, файловой системой, терминалом. Чтобы сама коммитила в Git, открывала PR, запускала тесты. Сделала rm -rf /*, наконец. Для этого нужны две вещи: агент(к агентности в философском или daemon смысле не имеет никакого отношения, просто так повелось называть) - это софт, который оркестрирует взаимодействие и предоставляет инструметы расширяюшие или ограничивающие работу модели и API-провайдер - тот, кто поставляет доступ к самой LLM, развернутой на серверах китайских товарищей или буржуйских супостатов.

Поставщики «мозгов» бывают двух сортов

Вендоры — разработчики моделей: OpenAI, Anthropic, Google (бесплатные flash-модели по API!!!), DeepSeek, Alibaba (Qwen), Z.ai API, MiMo (Xiaomi). У них прямой доступ к собственным моделям. Агрегаторы — посредники, собирающие модели от разных вендоров под одной крышей: OpenRouter есть бесплатный план, DeepInfra, Together AI, Groq есть бесплатный план, Fireworks AI, OpenCode (Zen/Go) есть бесплатный план, Cerebras есть бесплатный план. Список можно продолжать и продолжать, заканчивая помойками-однодневками от успешных васянов с ветхими стойками в древних ЦОДах. Отмечу, многие из агрегаторов не только продают доступ к общим инференс-инстансам, для солидных господ есть предложения о покупке отдельного инстанса или, натурально, выделенного вычислительного кластера для рассупонивания модельки.

Отдельного упоминания стоит nVidia - эти ребята производят не только лучшие GPU и NPU на сегодняшний день, они еще и файн-тюнят открытые модельки, предоставляют API и держат репозиторий открытых моделей (что это и зачем - дальше по тексту). Почти все провайдеры требуют иностранную карту. Но есть обходные пути: оформление иностранных карт, посредники с разнообразных платежных сервисов (тысячи их), старая добрая крипта.

Российские вендоры YandexGPT и GigaChat тоже предоставляют доступ к моделькам через API. Полная поддержка российских карт, данные на серверах в РФ. GigaChat даёт 1M токенов бесплатно при регистрации. Кто-то пользуется.

Агенты: open-source и проприетарные

Агент — это программа, которая превращает LLM из собеседника в деятеля. Агент читает код, пишет файлы, запускает команды, ищет в интернете, подключается к базам данных. Его принято ставить в Doker’ы, на виртуалки, на отдельные ПК (все любят MAC mini). На самом деле, если вы не кулхацкер, то для задач регулярной генерации текстов, создания скриптов для локальных автоматизаций, кодинга своего уютного сайтика - вполне можно разворачивать локально на машинке в юзер-директории (большинство агентов сами вам напомнят, что надо высовывать в сеть, а что нет, и в каких случаях). Так или иначе, все инструменты из нашего обзора делятся на три лагеря:

Open-source агенты:

OpenCode (150K ★) — CLI/Desktop/IDE/Web. TypeScript. Поддерживает 75+ провайдеров, включая локальные модели. Может работать в headless-режиме. Кроссплатформенный. Универсальный. Cline (61.5K ★) — расширение VS Code. MCP из коробки, умеет генерировать MCP-серверы прямо из чата. Подтверждение каждого действия (human-in-the-loop). Kilocode (19K ★) — позиционируется как «инженерная платформа», кроссплатформенный, расширенный функции автоматизации/ выполнения циклических задач. Aider (44.5K ★) — CLI, Python. Фишка: Repomap — карта репозитория для навигации модели. Qwen Code (24K ★) — CLI от Alibaba. Заточен под семейство Qwen, но работает с любыми моделями. Поддержка Skills и SubAgents. Roo Code (24K ★) — форк Cline с фокусом на кастомизацию режимов. Поддерживает русский язык в интерфейсе. LangChain, CrewAI, AutoGPT, MetaGPT, Qwen Agent — фреймворки для построения собственных агентных систем. От библиотек до платформ с marketplace. Pi-agent (45.8K ★) — минималистичный terminal-based harness от Mario Zechner. Философия: «адаптируй pi под себя, а не наоборот». Собственный TUI-движок. Не поддерживает MCP принципиально — всё необходимое строится через extensions. По сути — эталонный каркас для построения LLM-агентов: на его SDK построен, в частности, OpenClaw.

Проприетарные агенты:

Claude Code (Anthropic) — терминальный AI-разработчик. Автономная работа с кодом, коммиты, PR. Но: в РФ нужен и VPN, и иностранная карта. Худшая доступность. VS Code — база. Минималистичный, расширяемый. Самый распространённый. GitHub Copilot - это по сути то же самое. Cursor — AI IDE (форк VS Code). Composer 2, сверхточное автодополнение, облачные агенты. Windsurf — ещё один agentic IDE. Cascade (локальный агент) + Devin (облачный). Agent Command Center — канбан-доска для управления агентами. Antigravity (Google) — десктоп-приложение. Регионально ограничен, но сообщество поддерживает open-antigravity-patcher для обхода блокировок в РФ.

Агенты общего назначения стоят особняком от кодинг-агентов. Это не встройка в IDE и не CLI-утилита для работы с репозиторием — это персональные ассистенты, которые живут на вашем сервере/локальной машине, помнят контекст между сессиями и доступны через Telegram, Discord, Slack и другие каналы.

OpenClaw (369K ★) — лидер среди ассистентов общего назначения (см. таблицу 2.4). Это не чисто кодинг-агент, а персональный AI-ассистент с мультиканальным Gateway (24+ каналов). Агентный движок построен на Pi-agent SDK. Влияние на экосистему колоссально: именно OpenClaw популяризировал TUI-интерфейс среди массовой аудитории, а его система навыков ClawHub (5400+ skills) задала стандарт для реестров агентных умений.

Hermes Agent (104K ★) — самообучающийся агент от Nous Research. Создаёт reusable skills из опыта, улучшает их в процессе работы. Встроенный cron-планировщик, субагенты, браузерная автоматизация. 18+ LLM-провайдеров.

Важный нюанс: почти все агенты — «агностики». Они не привязаны к конкретному вендору. Вы можете направить Cline на OpenRouter, Aider — на DeepSeek API, OpenCode — на локальную Ollama. Связка выбирается под задачу и бюджет. Исключения: Claude Code работает только с моделями Anthropic; Qwen Code оптимизирован под Qwen, но принимает и другие эндпоинты.

Выбор агента — вопрос привычек (CLI/IDE/Web) и языка реализации. Выбор API — вопрос доступности, цены и качества модели для конкретной задачи. Специализированных российских AI-агентов для работы с кодом по состоянию на май 2026 не существует. YandexGPT и GigaChat — LLM общего назначения, не agentic tools. Адаптация open-source решений (Cline, Aider, Qwen Code) с локальными моделями или российскими API-провайдерами — основной путь для разработчиков и вайб-кодеров в РФ.


А внутри у ней - нейронка: плагин, память и контекст

Вы собрали связку «агент + API» и она работает. Но со временем приходит понимание: агент, который после каждой сессии «забывает» всё на свете — это пол-агента. Ему нужна память, причем такая, которая не сжигает все контекстное окно еще до старта задачи. Ему нужны инструменты, хорошо бы мониторируемые и логируемые. Не лишним будет распараллеливание работы, запуск отдельных суб-агентов. Для простых ребят, не владеющих тайным мастерством программирования, желательно, чтобы эти инструменты кто-то уже написал.

К счастью, вокруг каждого крупного агента выросла экосистема. И она быстро конвергирует к единым стандартам.

Рынок плагинов и MCP-серверы

Плагины расширяют функциональность агента — дают доступ к файловой системе, базам данных, API, браузеру, терминалу. Без плагинов агент умеет только генерировать текст.

MCP (Model Context Protocol) стал универсальным стандартом подключения инструментов. Репозиторий modelcontextprotocol/servers — 85K звёзд, 10K форков, тысячи community-серверов. MCP работает через stdio или HTTP/SSE, позволяет подключить любой внешний инструмент без написания кода внутри самого агента.

Самый раздутый маркетплейс — ClawHub у OpenClaw. 5400+ скиллов, 52 тысячи инструментов, 180 тысяч пользователей, 12 миллионов загрузок. У Claude Codeофициальный маркетплейс от Anthropic — 13 официальных плагинов. Cline — агент сам создаёт MCP-серверы из чата.

Реестры MCP-серверов: Smithery — Большой пул MCP общего назначения: поисковые, аналитика по блокчейнам, астрологические прогнозы. Бесплатно 50 000 вызовов в месяц.

, PulseMCP — Агрегатор MCP - сам доступ не раздает. Все серверы свалены в кучу, не для всех опубликованы эндпоинты (т.е. нашел какой-то MCP - идешь к провайдеру и смотришь как привязаться).

, MCPM — Фишка - есть свой «MCP Manager». Инструмент интегрируется с «ассистентами» и «кодинг-агентами» позволяет искать и настраивать MCP без походов по сайтам и репозиториям.

Скиллы (Skills)

Скилл — это не код, а инструкция + контекст. Файл SKILL.md с YAML frontmatter описывает, что агент должен делать в определённой ситуации. Модель сама решает, когда активировать скилл.

Главное отличие от плагинов: плагин добавляет новый инструмент (функцию, API-вызов), скилл добавляет новые знания и поведенческие паттерны. Скилл не требует программирования — это markdown-файл с инструкциями.

Стандарт AgentSkills (SKILL.md) — совместим между Pi, Claude Code, Cline, OpenClaw, OpenCode. YAML frontmatter содержит name, description, triggers — по ним модель определяет, какой скилл применить.

Контекст-файлы

Помимо плагинов и скиллов, поведение агента задаётся через markdown-файлы в директории проекта. Самый простой способ «настроить» агента без единой строчки кода:

ФайлНазначениеГде используется
AGENTS.mdОбщие инструкции для всех агентов в проектеOpenClaw, Cline, Codex, Cursor и др.
SOUL.mdЛичность, стиль общения, ценности агентаOpenClaw, Hermes Agent
TOOLS.mdОписание доступных инструментовOpenClaw
USER.mdПрофиль пользователя: предпочтения, стильHermes Agent, OpenClaw, и др.
MEMORY.mdДолговременная память агентаHermes Agent
.clinerulesПравила поведения для ClineCline
.cursorrulesПравила поведения для CursorCursor

Эти файлы автоматически подхватываются агентом при старте сессии и инжектируются в системный промпт. Их можно версионировать в Git.

Память агента — иногда за нее нужно платить

Агент который знает и помнит все про вашу машину, про вас, про ваши привычки. Страшно… очень страшно… Но значительной части юзеров именно это и надо. Чтобы агент поддерживал стиль общения, помнил, над чем вы с ним работаете, дольше одной сессии.

Типы памяти: session (внутри одной сессии), cross-session (предпочтения между сессиями), long-term / archival (архив с recall-механизмом).

Mem0 (55K ★, Apache 2.0) — де-факто стандарт. Алгоритм v3 (апрель 2026): single-pass ADD-only экстракция, entity linking, multi-signal retrieval. Бенчмарки: 91.6 на LoCoMo, 93.4 на LongMemEval. Self-hosted: pip install mem0ai или docker compose up.

Letta (ex-MemGPT, 22.5K ★) — self-editing memory: агент сам обновляет свою память. Архивная память + recall.

LangMem (MIT) — Memory SDK для LangGraph-агентов.

Векторные базы как фундамент памяти

Любое memory-решение опирается на векторную БД. Для продвинутых пользователей — возможность развернуть свой memory backend без готовых решений.

Milvus (44K ★), Qdrant (31K ★), ChromaDB (28K ★), Weaviate (16K ★) — все open-source, все разворачиваются локально в Docker, все бесплатны.

Когда нужна векторная БД: если вы строите RAG-систему, работаете с большими документами, или хотите кастомную память агента с семантическим поиском. Для большинства пользователей достаточно Mem0 (self-hosted) с ChromaDB — это минимум кода и максимум результата.

Экосистема расширений — то, что превращает агента из игрушки в инструмент. Плагины и скиллы добавляют способности. Memory-решения добавляют контекст между сессиями. Векторные БД — фундамент. Почти всё open-source и работает локально — российскому пользователю здесь вольготно.


Полный суверенитет и абсолютное погружение: локальный инференс

Вы преисполнились. Вам мало облачных API. Хочется, чтобы модель работала на вашем железе, без интернета, без лимитов, без оглядки на чужие серверы. Все - мы в стадии локального развертывания БЯМ. Здесь три составляющих: где брать модели, чем их запускать и на чём их запускать. Ответ на последний вопрос суперпростой - на чем угодно. Современные модели постояннно оптимизируются под «слабенькие» железки, снижают требования к объему памяти и вычислительной мощности квантизацией и ротацией активных параметров. Видеокарта НЕ обязательна - большинство инструментов запуска (почти у всех под капотом llama.cpp) прекрасно работает как с GPU, так и со связкой CPU+RAM. Отсюда стандартный вывод: много оперативы не бывает.

Репозитории моделей

Главный хаб планеты — Hugging Face. 2 миллиона моделей. Доступен из России без VPN (май 2026). Некоторые российские аккаунты удалены, но сам сайт открыт. При больших загрузках может барахлить без VPN.

ModelScope — китайский аналог HF от Alibaba. Эксклюзивные китайские модели, которых нет на Hugging Face.

Ollama Library — встроенный реестр моделей для инструмента Ollama.

CivitAI — репозиторий моделей для генерации изображений (Stable Diffusion, Flux).

Собственного российского репозитория нет. Российские открытые модели — это практически исключительно экосистема Сбера (GigaChat, ruGPT, Kandinsky), выложенные организацией ai-sage на Hugging Face. Яндекс веса не публикует.

Инструменты запуска

llama.cpp (109K ★) — фундамент всего. Чистый C++, без внешних зависимостей. Компилируется под всё: от серверной стойки с 8×H100 до Android-телефона. Поддерживает 200+ архитектур, квантование от 1.5 до 8 бит. Multi-node через RPC. OpenAI-совместимый API-сервер.

Ollama (109K ★) — проприетарная обёртка над llama.cpp, доведённая до состояния «скачал и заработало». Одна команда ollama run llama3 — и модель отвечает. Есть платный облачный уровень Pro/Max.

vLLM (79.3K ★) — инструмент для продакшена. Python, PagedAttention, continuous batching. Максимальная пропускная способность при массовых запросах. Multi-node. pip install vllm — и поехали.

SGLang (18K ★) — инференс-комбайн на Питоне. Есть отдельный режим оптимизации запуска на CPU-only сборках.

ExLlamaV3 (4.5K ★) — простое решение для простых моделек. Заявлена оптимизация под инференс на потребительских видеокарточках.

TensorRT-LLM (12K ★) — инференс-решение от nVidia - нуф сказал

LM Studio — десктопное приложение с GUI. Встроенный каталог моделей: выбрал → скачал → запустил. OpenAI-совместимый API из коробки. Бесплатно для коммерческого использования.

Open WebUI (137K ★, 290M+ загрузок) — комбайн для запуска модели сразу с интерфейсом. Подхватывает мультимодальные модельки и дает им интерфейсы для создания картинок, звуков видео. По сути инструмент инференса+сервер+агент в одном флаконе.

Jan (82K ★) — просто чятик, который можно оживить оптимизированными Qwen-модельками или, через небольшие танцы с бубном, любой моделькой.

LocalAI (26K ★) — Очередной комбайн «для всего». Особенность: поддерживается куча бэкенд-версий, отсюда теоретическая возможность запуска почти на любом относительно современном железе. Есть CPU-only

Когда что выбирать:

  • Просто запустить модель → Ollama (ollama run llama3) или LM Studio (GUI)
  • Максимум контроля → llama.cpp напрямую (C++, квантование, все платформы)
  • Продакшен с высокой нагрузкой → vLLM (универсальный) или SGLang (RAG/multi-turn, структурированный вывод)
  • Полноценная self-hosted платформа → Open WebUI поверх Ollama/vLLM (multi-user, RAG, MCP, функции)
  • Apple Silicon → MLX (разработан Apple, нативная оптимизация)
  • Максимум на NVIDIA → TensorRT-LLM (H100/B200, FP4)

Российских инструментов для локального инференса нет. Российские модели запускаются через международные инструменты — те же GGUF-квантизации GigaChat 3.1 работают в llama.cpp и Ollama без проблем.

Напоследок

Является ли этот гайд/обзор полным и исчерпывающим? Конечно нет. Во первых все онлан-чятики, провайдеров API, кодинг-агентов, различных около-ИИшных утилит и инструментов - не переназвать. Во ворых отрасль развивается очень быстро, и также быстро устареет этот материал. Где-то в середине лета выйдут новые крупные западные и китайские модели (скриньте этот твит). Скорее всего, еще раньше появится новая «хайповая» тема - навроде OpenClaw в начале этого года. Но парой вещей эта портянка ценна: она описывает логику знакомства обычного работяги с БЯМами, плюс тут очень много ссылочек на всяческую халяву и опен-сорц. Надеюсь, вам пригодится.

UPD: 17 мая 2026 года. Учтены замечания в комментариях: добавлены z.ai, minimax и другие модели и провайдеры. Добавлены инструменты Copilot и Codex. Переработан блок с плагинами и скиллами, добавлено описание контекст-файлов. Значительно обновлен раздел про инференс.



Последнее исправление: ivbor (всего исправлений: 4)
Ответ на: комментарий от firkax

Не расстраивайся, еще угадаешь.

ivbor
() автор топика

В обзоре отсутствуют cli агенты codex, gemini и copilot, при том, что были упомянуты куда более редкие и qwen code форк gemini. А также Hermes agent, быстро развивающаяся альтернатива OpenClaw с меньшим количеством проблем и интересной фичей - постоянной памятью. Возможно, в ide стоит добавить zed - там есть киллер фича в виде скорости работы, потому что не на жава или жаваскрипт)

goingUp ★★★★★
()
Последнее исправление: goingUp (всего исправлений: 2)

Ollama (109K ★) — проприетарная обёртка

ollama/ollama is licensed under the MIT License

Хочется пошутить про гпл, но не буду.

anonymous
()

Open WebUI нет, опенроутера нет..

Первый нужен, чтобы поставить вебгуй и туда ключ от любого апи вбить и юзать. Я например там нвидию использую.

Второй - как хаб, который берет твои запросы и раскидывает по разным поставщикам и моделям.

anonymous
()

А теперь все то же самое, но с разделением: Бесплатное и Платное.

В платном подробно - за что платишь и сколько платишь. Все остальное уже после.

Можно даже проще: обзор по полностью бесплатным (не обязательно свободым) продуктам и что они могут максимально сейчас.

LightDiver ★★★★★
()

Видеокарта НЕ обязательна

Не обязательна лишь если в системе iGPU, в других случаях чистое CPU имеет нулевое практическое значение даже для ознакомления с простыми локальными моделями.

А вот скромные iGPU это прекрасный выбор для начала, модели уровня Qwen3-35B-A3B и Gemma 4-26B-A4B достаточно шустро (20t/s и 16t/s) работают даже на встройке 780m

One ★★★★★
()
Ответ на: комментарий от LightDiver

Нет такого разделения.

обзор по полностью бесплатным (не обязательно свободым) продуктам

Ты путаешь свободную модель с сервисом, видимо.

по полностью бесплатным (не обязательно свободым) продуктам

А потом плачут «кококо если бесплатно значит я жертва».

За вас уже код пишут почти целиком, а они все ещё сидят в позиции жертвы и говорят «мам, выбери мне модель или сервис , только чтоб бесплатный был! Я требую».

Короче, ты привык требовать. Взял бы да и написал сам.

anonymous
()
Ответ на: комментарий от anonymous

Да мне по барабану на ваших жертв и ко-ко-ко.

Мне бы обзор по бесплатным продуктам, их ограничениям и что они могут максимально.

Сейчас это свалка инфы тут. Врядли кто то дочитал хотя бы до середины. Информативность очень низкая, потому что непонятно с чем ты столкнешься при использовании конкретно.

Структура нужна, а не все подряд. Тут кое какая структура есть, но довольно слабая. Как минимум я указал - что стоит разбелить платное и бесплатное. И в бесплатном указать возможности.

У автора, конечно же, есть свое видение - как правильно. Может ему религия запрещает сделать удобнее - его право. Может ему просто не хочется указывать определенное. Но если хочется сделать удобнее - я с удовольствием почитал бы. Инфа то действительно актуальная и интересная.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 2)
Ответ на: комментарий от LightDiver

ОП пост говно, безусловно.

Другое дело, что он и не нужен совсем, даже в идеальном и структурированном виде, потому что меняется ситуация постоянно.

По факту (насчёт погромистов упущу) просто юзаешь топов - гугл, чатгпт, дипсик; посматриваешь на статистику трендов в опенроутере. Да наверное и все, чего ещё не хватает?

Всякие z.ai и build.nvidia, если очень надо, но зачем?

Если не для личного использования, а для рабочих нужд, то тупо опенроутер.

anonymous
()
Ответ на: комментарий от anonymous

Вот в том и дело, что все очень уж стремительно меняется. Не успеешь оглянуться, еще три новых продукта с новой функциональностью, а ты то и не знал. Вон я для себя от квена Лингму открыл. И лимиты там, вроде как, более дружественные, чем у того же курсора. В инфе, к слову, о ней нет упоминаний. Вот мне и интересно - а нет ли подобного продукта с более менее юзабельными лимитами на бесплатных тарифах. Но я подозреваю, что нету.

LightDiver ★★★★★
()
Ответ на: комментарий от anonymous

Gemma 4-26B-A4B на UD-IQ4_NL в памяти где-то 14гб весит, Qwen3-35B-A3B - 18гб.

Последнее намного лучше и даже на четверть быстрее. ПК с встройкой с 32-48 гб им за глаза.

А работает шустро, так как MoE

One ★★★★★
()
Последнее исправление: One (всего исправлений: 2)
Ответ на: комментарий от One

UD-IQ4_NL Ну так квантование. Без - 50гб. Не суть важно, если тебе подходит то ок.

@LightDiver

В инфе, к слову, о ней нет упоминаний. Вот мне и интересно

Я просто сомневаюсь что твои требования к автору осуществимы. Это большой труд. В том, что его текущая статья - говно, я уже выше с тобой согласился.

anonymous
()
Ответ на: комментарий от LightDiver

Вот мне и интересно - а нет ли подобного продукта с более менее юзабельными лимитами на бесплатных тарифах.

А в чем интерес именно бесплатных тарифов.

Условно 20 долларов курсора это просто отбивает совсем халявщиков, подобная низкая цена входа есть и у других.

Ну не потратить 1800 руб в месяц для нужд, хз, даже для хобби странно, не говоря уж и о работе

One ★★★★★
()
Ответ на: комментарий от One

20 долларов курсора

Ты удивишься, но нейросети юзают не только для написания кода. Зачем мне курсор?

anonymous
()
Ответ на: комментарий от anonymous

ОП пост говно, безусловно.

текущая статья - говно

Коллеги, вы зачем так на автора набросились?

Вы раздел «статьи» откройте. Данный экземпляр точно не ниже среднего. Или вы ожидаете что тут враз монументальные труды появятся? Могут и появиться конечно, если кто-то из нас потрудится. Да и в бойлерплейте всё ясно обозначено, без лишних замашек.

Автору спасибо за начинание, это интересно.

anonymous
()
Ответ на: комментарий от anonymous

Вы раздел «статьи» откройте. Данный экземпляр точно не ниже среднего.

Да, я согласен, и не хотел обидеть автора. Для лора может это и нормально. Технический же форум^^

anonymous
()
Ответ на: комментарий от LightDiver

А что ты там такое кодишь на топовых нейросетях, просто интересно?

Я ники путаю, это ты там какие-то аддоны на луа для вов писал?

anonymous
()
Ответ на: комментарий от anonymous

Да, это я. Луа, js, ts, раст. Они в основном не кодят - автодополнение удобное и поиск информации по проектам. Найти инструмент, найти нужные места в коде.

Вот представь, загружаешь ты в лингме проект, нужно срочно вспомнить где у тебя что - спросил, оно сразу тебе ответило, показало. Нужно срочно вставит отладку во все места - тебе не надо вручную все это лопатить и после каждой строки вставлять - оно само может. Ты первый принт ставил - оно тебе заботливо подсветило остальные. Таб нажал - вставило.

Очень удобный инструмент автоматизации, но лингма и курсор с очень негуманными лимитами. Там что то около 50 запросов в месяц и все. Вот такое бы на тысячу запросов и я был бы тааак счастлив.

https://ns.fiber-gate.ru/uploads/images/img_1778207843774_9b92c1ba.png

https://ns.fiber-gate.ru/uploads/images/img_1778207851906_c72450df.png

https://ns.fiber-gate.ru/uploads/images/img_1778207858096_2bcb6d08.png

Вот глянь последнее. Видел где нубудь? Напомню, официально чат в вовке нередактируемый.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 2)
Ответ на: комментарий от LightDiver

Извини, твое творчество оценить не могу - не играл в вов лет 20 наверно, или когда там лич вышел.

Ну круто наверное, я не понимаю зачем тебе гнаться именно за топ моделями.

Там что то около 50 запросов в месяц и все. Вот такое бы на тысячу запросов и я был бы тааак счастлив.

Там что то около 50 запросов в месяц и все. Вот такое бы на тысячу запросов и я был бы тааак счастлив.

И без обид, но так жить нельзя. Точнее можно, но вечным халявщиком быть, хз. Кастани деда из деревни вочкета, он расскажет что тратить чужие ресурсы это полезный НАВЫК.

Тот факт, что если платить никто не будет (хотя бы за ресурсы), то и результатов не будет - вас видимо не волнует.

anonymous
()
Ответ на: комментарий от anonymous

А это и есть лич, так что отлично можешь. Это я в лича в чатик реакции впендюрил.

https://rutube.ru/video/c59b2c600e4810a8a61f9f4a6abc73c2/

А вот предыдущее - форум. Это все тот же лич. Напомню - анимайций в нем тоже не существует официально.

Я не гоняюсь за топами, мне нужен рабочий инструмент. Бесплатный.

Давай про вопросы морали, разработки и финансирования в другой раз. Все все отлично понимают. Но мы сейчас не об этом.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 1)
Ответ на: комментарий от LightDiver

Я не гоняюсь за топами, мне нужен рабочий инструмент. Бесплатный.

build.nvidia.com с каким-нибудь гпт120oss, или другими.

anonymous
()
Ответ на: комментарий от LightDiver

Но вообще это бред.

мне нужен рабочий инструмент. Бесплатный.

Давай про вопросы морали, разработки и финансирования в другой раз.

Удобно так говорить, когда ты стоишь на стороне потребителя, который не хочет платить. На другой стороне был? Я да.

anonymous
()
Ответ на: комментарий от anonymous

Слушай, удобно думать со стороны производителя, а чего ты не подумаешь со стороны потребителя, который не хочет платить?

С какого бы хрена я должен думать - как бы тебе заработать? Это ты думай сам. Дай мне то, зато даже я буду платить.

Пока у меня есть бесплатные китайцы. Можешь сделать лучше, удобнее - сделай, покажи. За что я должен платить? Почему я должен взять твое платное, а не бесплатного китайца? Что мне это даст?

Не надо давиь мне на эмоции и мораль, я так и сам могу.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 1)
Ответ на: комментарий от LightDiver

Попробую ответить на твои и не только претензии к обзору одним постом.

Мне бы обзор по бесплатным продуктам, их ограничениям и что они могут максимально.

Это он и есть. Практически все упомянутые продукты имеют фри-тиры. Вопрос в том, насколько они доступны из России: у многих российские пользователи забанены по умолчанию, где-то даже для бесплатного тарифа требуется привязка валидной банковской карточки. Основные бесплатные варианты с нормальными лимитами - подсвечены. Более структурированная информация про продукты в табличном приложении по ссылке в самом конце поста.

отсутствуют cli агенты codex, gemini

Принято - TBD

build.nvidia.com забыл с большими лимитами

Нет. Упоминается в разделе про поставщиков API. Выделяется отдельно как и агрегатор, и файн-тюнер, и провайдер «железной» инфраструктуры

опенроутера нет..

Есть. В разделе про провайдеров API

Не обязательна лишь если в системе iGPU, в других случаях чистое CPU имеет нулевое практическое значение даже для ознакомления с простыми локальными моделями.

Нет. llama.cpp поддерживает инференс без GPU вообще.

ОП пост говно, безусловно

OK

ivbor
() автор топика
Ответ на: комментарий от ivbor

Просто чтобы взять полезную инфу из этого обзора, придется потратить минимум столько же времени, если не больше, чем на написание этого обзора. Потому что ты уже эту инфу знаешь, но раскидал ее по структуре обзора.

Листать все подряд - перебирать, что заблокировано, что нет, что требует привязок карт. что нет, что платное, что бесплатное. Стоит ли вообще смотреть в ту сторону какая функциональность.

Вот представь, мне надо не заблокированное из РФ бесплатно с максимальной функциональностью. Что я выберу по твоему обзору?

В целом идея обзора хорошая, но над реализацией надо поработать.

LightDiver ★★★★★
()
Ответ на: комментарий от LightDiver

а чего ты не подумаешь со стороны потребителя, который не хочет платить?

А зачем думать о вас, если есть потребители которые платят и взамен получают продукт и поддержку?

Можешь не отвечать, это риторический вопрос.

anonymous
()
Ответ на: комментарий от anonymous

А нахрена мне думать о вас, если есть производители, которые не требуют платить?

Я вот на твое отношение и подходы смотрю и даже не зная что у тебя за продукт - лучше заплачу китайцу, если уж до такого дойдет.

Потому что китаец не сношает мне мозг. Он дал мне отличный продукт, который работает.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 2)
Ответ на: комментарий от LightDiver

Понятно. Но изначально, цель обзора - дать структурированную информацию по продуктам вокруг LLM: от веб-морд до инструментов локального развертывания. С акцентом именно на сервисы и приложения доступные российскому пользователю. И побольше, побольше!

Сравняшки, таблички и прочее есть на страничке по ссылке в самом конце поста.

Почему я не вставил таблички прямо в материал? Как ты правильно заметил, обзор и так довольно тяжело читается. Гигантсякие таблички сделали бы текст просто непригодным к упо реблению.

И еще, хочется поныть и пожаловаться на движок ЛОРа. Версия маркдауна староватая: не поддержираются html-элементы верстки - не сделать кошерный кат, создание оглавления не срабатывает - движок не подхватывает ссылки на фрагменты текста (хотя, может я делал что-то не то). С оглавлением материал читался бы гораздо лучше.

ivbor
() автор топика
Ответ на: комментарий от LightDiver

Мужик, ты сейчас за три своих камента заявил:

- Не могу найти всю разжёванную под мои личные хотелки инфу в одном месте
  Готов платить за то, что хорошо сделано
- Вот тебе базовая статья, можешь копнуть от неё дальше
- Нет, не надо, переделай лучше, но бесплатно

Офигеть. Голоса не беспокоят?

anonymous
()
Ответ на: комментарий от anonymous

Я все больше начинаю понимать причины успеха китайцев и что не так с тем же автовазом.

Но теперь мне интересно - что не так с Дуровым и Телеграмом? А, хотя понял. На фоне таких как ты он стремительно и выбился вперед. Тут все закономерно.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 1)
Ответ на: комментарий от LightDiver

Офигеть. Голоса не беспокоят?

Я все больше начинаю понимать причины успеха китайцев и что не так с тем же автовазом.

Но теперь мне интересно - что не так с Дуровым и Телеграмом?

Это просто лол, дядя

Про голоса, возможно, грубовато было, но иначе тут не скажешь

Это мне теперь следует по твоему велению разобраться что ты понял и что ты пытаешься спросить?

А нахрена мне думать о вас

Будь здоров

anonymous
()

Погодите. Но ведь самый простой для юзверя, и в то же время неплохо отвечающий чат сейчас - это встроенный в Google! Я просто ввожу в адресную строку Firefox сразу промпт, и ура!

James_Holden ★★★★★
()

А в Гугле «режим ИИ» это кто, Gemini? Прям хорош. Я с ним каждый день советуюсь - то как печь банную, прогоревшую до дыр, заварить, то какой насос для душа в бане лучше, то можно ли без телескопической трубы собрать дымоход сложной формы.

У меня уже зависимость, факт.

Toxo2 ★★★★★
()
Ответ на: комментарий от LightDiver

Тебе же 40+ вроде лет?

Откуда у вас берется вот это «уу проклятые капиталисты, чтоб я им деньги отдал, можно же бесплатно»?

если есть производители, которые не требуют платить

Таких не существует.

anonymous
()
Ответ на: комментарий от Toxo2

Да, и если бы ты был не в России (мочераторы, танцпол!), то юзал бы его прямо на андроид телефоне типа пикселя.

В текущей реальности некоторые на этом форуме говорят что Алиса и гигачат от Сбера не хуже.

anonymous
()
Ответ на: комментарий от anonymous

Вот смартфонами я не пользуюсь. Не вижу никакого кайфа от них. Кнопочного телефона достаточно.

А «режим ИИ» - прям страшно сказать - друг полезный оказался.

Toxo2 ★★★★★
()
Ответ на: комментарий от anonymous

Я уже даже не знаю как проще донести свою мысль. Я не плачу в первую очередь не потому что капиталюги проклятые (хотя и это тоже), а потому что не хочу.

И да, такие существуют. И на наших вот таких беседах я начинаю, как прозводитель, лучше понимать как не надо общаться с юзерами.

LightDiver ★★★★★
()
Ответ на: комментарий от Toxo2

А «режим ИИ» - прям страшно сказать - друг полезный оказался.

Вот ты однажды потом удивишься, когда нормальные модели попробуешь :) завидую.

anonymous
()
Ответ на: комментарий от One

чистое CPU имеет нулевое практическое значение даже для ознакомления с простыми локальными моделями

Категорически ВСЕ неверно:

Чистое CPU имеет нулевое практическое значение

даже для ознакомления работы

с простыми огромными локальными моделями

Объяснять не буду. Не хочется метать бисер

anonymous
()
Ответ на: комментарий от LightDiver

Все уже посчитали давно во сколько обойдется и или купили/арендовали железо, или купили план на токены.

Если твоей сложной (как тебе кажется) задаче на луа для вов достаточно бесплатных сервисов, это не значит что всем хватает.

Ценники не из воздуха берутся.

anonymous
()
Ответ на: комментарий от anonymous

Open WebUI нет

Вот на это хочу ответить отдельно. Я размышлял, куда вкрутить эту штуку - так и не решился. По идее где-то между веб-мордами вендоров и агентами по функционалу (до обоих не дотягивает). Но и к разделу локального развертывания относится, если кто-то зачем-то захочет организовать интерфейс локальной модели именно в виде веб-чятика.

Наиболее реальный, на мой взгляд, юзкейс - использовать для создания своей «инновационной» обертки для ЛЛМ и по быстрому срубить бабла на хайпе. Но это опять же не пользовательский сценарий.

  1. Open WebUI - это по сути универсальная веб морда. Имитация работы с веб-чатом без удобства и нативных фич от разработчика.

  2. Некий функционал для использования с агентами - норм идея. Многие разработчики агентов используют именно OWUI для вкручивания «кроссплатформенности». Зачем с этим заморачиваться юзеру - не понятно.

  3. Если ты уже на стадии самохоста моделек, то ты наверное уже знаком с инструменами командной строки и готовыми решениями-комбайнами. Зачем переизобретать велосипед - не понятно.

Так что без Open WebUI в обзоре. Хотя, возможно, я просто не умею его готовить. С удовольствием бы почитал разбор от эксперта или опытного юзера.

ivbor
() автор топика
Ответ на: комментарий от anonymous

Так я не навязываю как жить другим. Хочешь покупать - отлично, покупай. А я то тут при чем?

Я просто хочу глянуть возможности бесплатных сервисов, сравнение. Функциональность. А то много их стало. Все время появляются новые. Может где появилось то, что лучше моих текущих.

LightDiver ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.