LINUX.ORG.RU

leuk - агент на все руки под Linux

 harness, , , ,


1

2

https://github.com/joyouslang/leuk

В последнее время вместе с LLM пишу свой harness для работы с моделями от различных поставщиков (в т.ч. локальные с OpenAI-совместимым API endpoint), преимущественно с двумя целями:

  1. Автономное исполнение формализованного списка обязанностей (особенно важны доработки для маленьких моделей, они очень склонны рано прерывать исполнение), как proof-of-concept стремлюсь забрать максимум задач у среднестатистического офисного работника, имеющего дело с документами и множеством источников

  2. Доступные и удобные интерфейсы – в планах полноценное редактирование diff-ов от LLM в т.ч. во внешнем редакторе и переход на leuk для его разработки (текущие REPL и история честно содраны с Gemini CLI и Qwen Code), есть голосовой ввод «без рук» и функциональный REPL, также масса инструментов - управление компьютером через Telegram/WhatsApp (последний толком не тестировал), управление браузером, также другими приложениями через ydotool и скриншоты (пока их тянут лишь мощные модели типа Sonnet), организация и планирование задач, скиллы и MCP из ClawHub и других источников (WIP)

Отдельно замечу, что хотя в auto режиме у вас могут спросить разрешения на выполнение каких-то действий, надеяться на этот механизм вне отдельной виртуальной машины не стоит; поддержка контейнеризации также планируется в будущем. По умолчанию все write-опасные операции, известные агенту, требуют явного одобрения пользователя.

Багов очень много и они лезут отовсюду, на данный момент я фиксирую имеющиеся функциональность и ошибки с целью доведения инструмента до стабильной работы. Название такое потому что нравится и похоже на имя. Понимаю, что тут у каждого второго такой бот имеется, наверняка, но вдруг кому-то будет интересно такое ПО (slopware, если точнее). До версии 0.3 постараюсь добавить и китайских поставщиков моделей, сейчас не имею ключей для тестирования.

Перемещено maxcom из development

★★★

Последнее исправление: unfo (всего исправлений: 1)
Ответ на: комментарий от BruteForce

То же самое. Подписка для того и нужна, чтобы не платить за количество потраченных токенов. Чтобы это работало, пришлось разобраться в формате общения Claude Code с серверами Anthropic через реверс клиента, их инфраструктура «думает», что имеет дело с Claude Code/Desktop.

mazdai ★★★
() автор топика
Ответ на: комментарий от mazdai

То же самое.

То есть твоё предсказание таково: Anthropic продолжит (годами? месяцами?) работать себе в убыток, позволяя жечь токенов на большее кол-во долларов, чем стоит подписка?

BruteForce ★★★★
()
Ответ на: комментарий от BruteForce

Я ничего такого не предсказывал. Почему в убыток и почему на большее кол-во, чем стоит подписка? Ровно по расценкам подписки все и работает и она дешевле токенов по API-ключам.

mazdai ★★★
() автор топика
Ответ на: комментарий от anonymous

REPL здесь – это цикл человек-агент, для вызовов интерпретатора и других программ используется инструмент shell, создающий одноразовый процесс. Выживают файлы и состояние, сохраненные в память, контейнер Docker (требует тестирования и отладки) либо принадлежащие другим процессам; пока что я делал сессии tmux с интерпретатором - к ним агент может подключаться, сливать туда на ввод команды и читать выхлоп. Возможно, сделаю отдельный инструмент типа interpreter session в дальнейшем.

mazdai ★★★
() автор топика
Ответ на: комментарий от mazdai

Ровно по расценкам подписки все и работает и она дешевле токенов по API-ключам.

Ну ты же не думаешь, что они продают свой сервис по API сильно-сильно дороже чем его же по подписке, потому что там разные издержки? А если издержки равны (не равны, но в другую сторону, т. к. клиентский софт ещё надо поддерживать), то почему им не понизить цену на API и не отобрать юзверей у гугла и опенаи? Тем более, что близко IPO.

https://www.businessinsider.com/claude-code-codex-token-bill-save-money-openai-anthropic-foyer-2026-6

https://www.wheresyoured.at/anthropics-profitability-swindle/

BruteForce ★★★★
()
Ответ на: комментарий от BruteForce

Я, может, чего-то не понимаю, но в приведенных статьях «история успеха» как раз про использование индивидуальных подписок вместо API-ключей, потому что это и больший же сегмент аудитории по сравнению с энтерпрайзом (который может хоть в 20 раз больше потреблять и платить при этом по полному прайсу). Думаю, что самые выгодные предложения останутся для физ. лиц, потому что именно они тащат эти модели и свои наработки с ними на работу и в свои проекты. Плюс стоит отметить, что почти все методы расширения функциональности БЯМ съедают время и контекст и даже персональная подписка с каждым годом потребляет все больше «на ту же единицу работы».

mazdai ★★★
() автор топика
Последнее исправление: mazdai (всего исправлений: 2)
Ответ на: комментарий от mazdai

Конечно субсидированные подписки приятны юзверям! Но Microsoft эту лавочку прикрыл, ибо не окупается.

BruteForce ★★★★
()
Ответ на: комментарий от mazdai

Через tmux это верный подход, одобряю. Я сделал просто прокладку типа rlwrap которая через сокет организует еще канал к БЯМ. Можно напускать под тимукс можно без.

anonymous
()

Поправил много багов и гонок, обновил TUI и добавил /undo – возврат на 2 сообщения (запрос и ответ LLM) назад + восстановление рефа в гите, сохраняемого в начале каждого «раунда» (очередного этапа работ). Советую также посмотреть /voice (голосовой ввод-вывод на Whisper и Silero).

mazdai ★★★
() автор топика
Ответ на: комментарий от BruteForce

Я искал такие бенчмарки, но не нашел. Сравниваю функционал по собственному опыту использования разных -cli и *code, функционально же я хотел иметь как минимум тот же набор инструментов и интеграций, что есть в Antigravity и Claude Desktop на винде (включая управление рабочим столом и браузером).

Теперь, думаю, буду

  1. Добивать автоматизацию GUI для слабых моделей (сейчас только мощные модели не отказываются пользоваться врученными им инструментами)
  2. Допиливать импорт и работу MCP и скиллов
  3. Добавлю шаблоны/сценарии для разных задач
mazdai ★★★
() автор топика
Ответ на: комментарий от mazdai

Нашел такие статьи на тему: https://arxiv.org/abs/2605.27922 и https://neuralnoise.com/2026/harness-bench-wip (похоже, это разные бенчи) – нужны задачи не из интернета, покрывающие весь функционал для оценки (по работе приоритетные задачи включают в себя автоматизацию дергания MCP и рабочих API и походы в БД, куда меньший скоуп). Буду рад помощи в планировании такого тестирования

mazdai ★★★
() автор топика
Ответ на: комментарий от mazdai

Нет вреени помочь, но есть такая идея: попробовать скопировать упряжь Claude Code:

  1. не изобретать лисапед, а воспользоваться трудом корпорации

  2. у них она хороша

  3. утекала совсем недавно https://paddo.dev/blog/claude-code-leak-harness-exposed/

BruteForce ★★★★
()
  • Markdown
Пустая строка (два раза Enter) начинает новый абзац. Знак '>' в начале абзаца выделяет абзац курсивом цитирования.
Внимание: прочитайте описание разметки Markdown.
Используйте Ctrl-Enter для размещения комментария