В последнее время вместе с LLM пишу свой harness для работы с моделями от различных поставщиков (в т.ч. локальные с OpenAI-совместимым API endpoint), преимущественно с двумя целями:

Автономное исполнение формализованного списка обязанностей (особенно важны доработки для маленьких моделей, они очень склонны рано прерывать исполнение), как proof-of-concept стремлюсь забрать максимум задач у среднестатистического офисного работника, имеющего дело с документами и множеством источников
Доступные и удобные интерфейсы – в планах полноценное редактирование diff-ов от LLM в т.ч. во внешнем редакторе и переход на leuk для его разработки (текущие REPL и история честно содраны с Gemini CLI и Qwen Code), есть голосовой ввод «без рук» и функциональный REPL, также масса инструментов - управление компьютером через Telegram/WhatsApp (последний толком не тестировал), управление браузером, также другими приложениями через ydotool и скриншоты (пока их тянут лишь мощные модели типа Sonnet), организация и планирование задач, скиллы и MCP из ClawHub и других источников (WIP)

Отдельно замечу, что хотя в auto режиме у вас могут спросить разрешения на выполнение каких-то действий, надеяться на этот механизм вне отдельной виртуальной машины не стоит; поддержка контейнеризации также планируется в будущем. По умолчанию все write-опасные операции, известные агенту, требуют явного одобрения пользователя.

Багов очень много и они лезут отовсюду, на данный момент я фиксирую имеющиеся функциональность и ошибки с целью доведения инструмента до стабильной работы. Название такое потому что нравится и похоже на имя. Понимаю, что тут у каждого второго такой бот имеется, наверняка, но вдруг кому-то будет интересно такое ПО (slopware, если точнее). До версии 0.3 постараюсь добавить и китайских поставщиков моделей, сейчас не имею ключей для тестирования.

Перемещено maxcom из development

← Сбросим могучей рукою и водрузим над землёю красное знамя труда!

Кратко про нейронные сети. Тестирование →

P.S. Модели Anthropic доступны по подписке вместо ключа, что ощутимо дешевле

mazdai ★★★
(06.06.26 19:34:39 MSK) автор топика

Ответ на: комментарий от mazdai 06.06.26 19:34:39 MSK

Это пока так. Что будет завтра?

BruteForce ★★★★
(07.06.26 01:28:33 MSK)

Как делаешь РЕПЛ? Можно например запустить R или julia и фигачить туда по очереди с БЯМ?

anonymous
(07.06.26 03:19:09 MSK)

Ответ на: комментарий от BruteForce 07.06.26 01:28:33 MSK

То же самое. Подписка для того и нужна, чтобы не платить за количество потраченных токенов. Чтобы это работало, пришлось разобраться в формате общения Claude Code с серверами Anthropic через реверс клиента, их инфраструктура «думает», что имеет дело с Claude Code/Desktop.

mazdai ★★★
(07.06.26 16:21:08 MSK) автор топика

Ответ на: комментарий от mazdai 07.06.26 16:21:08 MSK

То же самое.

То есть твоё предсказание таково: Anthropic продолжит (годами? месяцами?) работать себе в убыток, позволяя жечь токенов на большее кол-во долларов, чем стоит подписка?

BruteForce ★★★★
(07.06.26 16:37:44 MSK)

Ответ на: комментарий от BruteForce 07.06.26 16:37:44 MSK

Я ничего такого не предсказывал. Почему в убыток и почему на большее кол-во, чем стоит подписка? Ровно по расценкам подписки все и работает и она дешевле токенов по API-ключам.

mazdai ★★★
(07.06.26 16:47:04 MSK) автор топика

Ответ на: комментарий от anonymous 07.06.26 03:19:09 MSK

REPL здесь – это цикл человек-агент, для вызовов интерпретатора и других программ используется инструмент shell, создающий одноразовый процесс. Выживают файлы и состояние, сохраненные в память, контейнер Docker (требует тестирования и отладки) либо принадлежащие другим процессам; пока что я делал сессии tmux с интерпретатором - к ним агент может подключаться, сливать туда на ввод команды и читать выхлоп. Возможно, сделаю отдельный инструмент типа interpreter session в дальнейшем.

mazdai ★★★
(07.06.26 17:04:41 MSK) автор топика

Ответ на: комментарий от mazdai 07.06.26 16:47:04 MSK

Ровно по расценкам подписки все и работает и она дешевле токенов по API-ключам.

Ну ты же не думаешь, что они продают свой сервис по API сильно-сильно дороже чем его же по подписке, потому что там разные издержки? А если издержки равны (не равны, но в другую сторону, т. к. клиентский софт ещё надо поддерживать), то почему им не понизить цену на API и не отобрать юзверей у гугла и опенаи? Тем более, что близко IPO.

https://www.businessinsider.com/claude-code-codex-token-bill-save-money-openai-anthropic-foyer-2026-6

https://www.wheresyoured.at/anthropics-profitability-swindle/

BruteForce ★★★★
(07.06.26 17:06:54 MSK)

Ответ на: комментарий от BruteForce 07.06.26 17:06:54 MSK

Я, может, чего-то не понимаю, но в приведенных статьях «история успеха» как раз про использование индивидуальных подписок вместо API-ключей, потому что это и больший же сегмент аудитории по сравнению с энтерпрайзом (который может хоть в 20 раз больше потреблять и платить при этом по полному прайсу). Думаю, что самые выгодные предложения останутся для физ. лиц, потому что именно они тащат эти модели и свои наработки с ними на работу и в свои проекты. Плюс стоит отметить, что почти все методы расширения функциональности БЯМ съедают время и контекст и даже персональная подписка с каждым годом потребляет все больше «на ту же единицу работы».

mazdai ★★★
(07.06.26 17:15:50 MSK) автор топика
Последнее исправление: mazdai 07.06.26 17:19:36 MSK (всего исправлений: 2)

Ответ на: комментарий от mazdai 07.06.26 17:15:50 MSK

Конечно субсидированные подписки приятны юзверям! Но Microsoft эту лавочку прикрыл, ибо не окупается.

BruteForce ★★★★
(07.06.26 17:20:16 MSK)

Ответ на: комментарий от mazdai 07.06.26 17:04:41 MSK

Через tmux это верный подход, одобряю. Я сделал просто прокладку типа rlwrap которая через сокет организует еще канал к БЯМ. Можно напускать под тимукс можно без.

anonymous
(07.06.26 23:09:17 MSK)

Поправил много багов и гонок, обновил TUI и добавил /undo – возврат на 2 сообщения (запрос и ответ LLM) назад + восстановление рефа в гите, сохраняемого в начале каждого «раунда» (очередного этапа работ). Советую также посмотреть /voice (голосовой ввод-вывод на Whisper и Silero).

mazdai ★★★
(10.06.26 14:30:28 MSK) автор топика

Ответ на: комментарий от mazdai 10.06.26 14:30:28 MSK

А есть какой-то тест для сравнения твоей упряжки с какой-нибудь другой? Или ты интуитивно двигаешься?

BruteForce ★★★★
(10.06.26 16:47:58 MSK)

Ответ на: комментарий от BruteForce 10.06.26 16:47:58 MSK

Я искал такие бенчмарки, но не нашел. Сравниваю функционал по собственному опыту использования разных -cli и *code, функционально же я хотел иметь как минимум тот же набор инструментов и интеграций, что есть в Antigravity и Claude Desktop на винде (включая управление рабочим столом и браузером).

Теперь, думаю, буду

Добивать автоматизацию GUI для слабых моделей (сейчас только мощные модели не отказываются пользоваться врученными им инструментами)
Допиливать импорт и работу MCP и скиллов
Добавлю шаблоны/сценарии для разных задач

mazdai ★★★
(10.06.26 19:06:06 MSK) автор топика

Ответ на: комментарий от mazdai 10.06.26 19:06:06 MSK

Нашел такие статьи на тему: https://arxiv.org/abs/2605.27922 и https://neuralnoise.com/2026/harness-bench-wip (похоже, это разные бенчи) – нужны задачи не из интернета, покрывающие весь функционал для оценки (по работе приоритетные задачи включают в себя автоматизацию дергания MCP и рабочих API и походы в БД, куда меньший скоуп). Буду рад помощи в планировании такого тестирования

mazdai ★★★
(10.06.26 21:42:52 MSK) автор топика

Ответ на: комментарий от mazdai 10.06.26 21:42:52 MSK

Нет вреени помочь, но есть такая идея: попробовать скопировать упряжь Claude Code:

не изобретать лисапед, а воспользоваться трудом корпорации
у них она хороша
утекала совсем недавно https://paddo.dev/blog/claude-code-leak-harness-exposed/

BruteForce ★★★★
(10.06.26 23:42:13 MSK)

Ответ на: комментарий от BruteForce 10.06.26 23:42:13 MSK

Поставил «не нужно», поскольку считаю копирование бессмысленным (большую часть имеющего значение UI я и так перерисовал), проблемным с точки зрения лицензии и ToS (тем более при использовании их проприетарного кода), а функционал, во первых, (должен быть) достаточен либо усилен до той степени, чтобы в CC как раз-таки не переключаться, пользуясь фичами оттуда в том числе. Потом, я бы хотел систему генерации и исполнения сценариев, для типовых задач и иметь возможность зайти в такую автономную сессию для отладки или правок – буду пока над этим работать.

mazdai ★★★
(11.06.26 23:07:59 MSK) автор топика

Ответ на: комментарий от mazdai 11.06.26 23:07:59 MSK

А вот у меня вопрос:

https://www.opennet.ru/opennews/art.shtml?num=65664

Вот на этом сайте как идет защита от ИИ если чей то акк взламают или юзер акк будет юзать ИИ?

К примеру у анонимусов есть защита, двойная капча.

anonymous
(11.06.26 23:57:04 MSK)

Ответ на: комментарий от anonymous 11.06.26 23:57:04 MSK

На каком сайте, на opennet.ru? linux.org.ru? Не понял вопрос.

mazdai ★★★
(13.06.26 10:12:07 MSK) автор топика

Ответ на: комментарий от mazdai 13.06.26 10:12:07 MSK

Я про лор.

Как вообще на сайтах и в жизни идет защита от ИИ?

Мало того что агенты ИИ сливают в сеть до чего дотянуться, а как к примеру на ЛОРе идет защита от ИИ?

anonymous
(13.06.26 15:49:50 MSK)

Ответ на: комментарий от anonymous 13.06.26 15:49:50 MSK

Это уже пусть модераторы разбираются, я лично пишу в сети сам и не агитирую никого пользоваться этим инструментом для нарушения правил или закона.

mazdai ★★★
(14.06.26 00:23:25 MSK) автор топика

Ответ на: комментарий от mazdai 14.06.26 00:23:25 MSK

Причем тут нарушение закона?

Меня сейчас боььше волнует какие ведуться действия по отношению безопасности от ИИ?

Я видел разных сотрудников они пихают в ИИ дооовора, тех задания и т.д. с целью анализа этих документов. Они отдают себе отчет что таким образом сливают и коммерческую тайну и конфедициальную информацию?

(дальше, то что я напишу может показаться бредом, но это только на первый взгляд). В конце концов помните Азимова и его 3 закона про роботов.

Где такие законы по ИИ вшитые в алгоритм?

Я не могу способствовать рашлашению конфедициальной информации.
и т.д.

Причем ии должен быть сертицифицирован на прримение этих законов и т.д.

anonymous
(14.06.26 07:38:54 MSK)

Ответ на: комментарий от anonymous 14.06.26 07:38:54 MSK

https://en.wikipedia.org/wiki/AI_alignment

mazdai ★★★
(18.06.26 13:29:13 MSK) автор топика

До версии 0.3 постараюсь добавить и китайских поставщиков моделей, сейчас не имею ключей для тестирования.

у них апи совместимо с openai, так что проблем не должно быть.

Правда есть нюанс. У kimi тоже есть подписка как у антропика (т.е. платишь фиксированную сумму в месяц и тебе предоставляют возобновляемые лимиты токенов), но для работы стороннего софта через нее нужно указывать кастомный юзерагент. Советую добавить такую настройку в этот твой leuk.

Lrrr ★★★★★
(18.06.26 13:50:02 MSK)
Последнее исправление: Lrrr 18.06.26 13:51:49 MSK (всего исправлений: 1)

Ответ на: комментарий от Lrrr 18.06.26 13:50:02 MSK

Мне понадобится один сеанс авторизации для проверки, сейчас сам не могу оформить подписку. Ещё, у них есть OpenAI совместимый API и для всех таких сервисов поддержка технически уже есть (надо выбрать в /auth пункт local и там авторизоваться). Напиши в PR или на почту с гитхаба, если есть интерес добавить вариант авторизации через подписку.

mazdai ★★★
(18.06.26 19:09:28 MSK) автор топика

Ответ на: комментарий от mazdai 18.06.26 19:09:28 MSK

https://platform.kimi.ai/docs/guide/agent-support вот здесь ничего про юзерагент или другой фингерпринтинг не увидел. Вообще не пользовался этими моделями

mazdai ★★★
(18.06.26 19:21:49 MSK) автор топика

Ответ на: комментарий от mazdai 18.06.26 19:21:49 MSK

(Извините что пишу сюда, только здесь могу писать почти в тему)

Фиг с ней с этой безопасностью, агенты сливают в сеть до чего дотянутся.

Ну так тут уже стали трубить про новую опасность и это уже похуже будет. Уже провели много клинических испытаний по этому поводу. Следующие поколения (может через одно) уже будут многочисленно болеть деменцией! А это уже намного серьезнее безопасности. И с этим нужно что то срочно делать.

anonymous
(21.06.26 09:01:04 MSK)

← Сбросим могучей рукою и водрузим над землёю красное знамя труда!

Искусственный Интеллект

Кратко про нейронные сети. Тестирование →

Похожие темы