LLM могут или нет?

ботоводство, жж, пятница

предыстория: у меня есть эта бесполезная фигня, смарт часы. как-то раз выпрыгнула всплывашка, типа «помогите нам улучшить», на тот момент я дико хотел одну фичу, пробовал ее сделать и нифига у меня не получилось. ну и чет с горя я накатал им здоровое прям ТЗ, что и как я вижу.

и через несколько месяцев…. эта фича появилась. я хз, потому что я написал, или они тоже про это думали… но как-то вот.

теперь история.

банк. народ туда бывает пишет хотелки, что-то типа фич реквеста.

приходит запрос, бот ее обрабатывает, проверяет выполнимость, заводит в трекер таску.

другой бот смотрит таску, доку, код, делает MR.

другой бот смотрит МР, гайдлайны, делает тесты, собирает, делает скриншот, отправляет клиенту, типа «родной, так тебе норм?». получает ответ «норм».

другой бот льет МР в мастер, фича едет в прод.

другой бот пишет уведомление клиенту, типа «родной, ты важен для нас, мы для тебя вот сделали».

другой бот собирает подобные запросы из беклога и пишет клиентам «вы просили — мы сделали».

время выполнения всей цепочки меньше 8-ми часов, рабодень.

человека там не было.

я аж сам прифигел от такой истории узбека, но история реальная.

Ссылка

← делаем образ загрузочной SD

Линуксоид-одинэсник →

← 1 2 →

приходит запрос

Надо было ещё добавить в сюжет, что и запрос от бота пришёл…

wandrien ★★★★
(24.04.26 21:40:22 MSK)

Ответ на: комментарий от wandrien 24.04.26 21:40:22 MSK

в этом весь смысл: человек повелевает, боты делают.

Rastafarra ★★★★
(24.04.26 21:41:20 MSK) автор топика

Ссылка

После этих запросов в Джире начался сущий кошмар…

~~karton1~~ ★★★★★
(24.04.26 22:19:36 MSK)

Т.е. существует банк, где левый Васян с улицы, может написать чё он хочет, на это будет создан таск, тест, токен-токен и в продакшон? И все это без участия человека? О_о

Можно название банка, чтоб случайно не вляпаться?

~~windows10~~ ★★★★★
(24.04.26 22:30:24 MSK)

Ответ на: комментарий от windows10 24.04.26 22:30:24 MSK

будет создан таск, тест, токен-токен и в продакшон?

там сложное верифицирование типа «надо не надо», «в ногу ли», но да, есть. и не один :)

Rastafarra ★★★★
(24.04.26 22:33:47 MSK) автор топика

Ответ на: комментарий от karton1 24.04.26 22:19:36 MSK

После этих запросов в Джире начался сущий кошмар…

например если уметь в мультиагентную систему, боты натурально срутся в каментах, но не очень понятно в чем кошмар.

видно какой бот чем руководствовался, хороший повод менять промты.

Rastafarra ★★★★
(24.04.26 22:35:00 MSK) автор топика

теперь история. банк.

Так чо за банк-то?

temak ★
(24.04.26 22:35:28 MSK)

Ответ на: комментарий от temak 24.04.26 22:35:28 MSK

да.

Rastafarra ★★★★
(24.04.26 22:35:44 MSK) автор топика

Ссылка

Ответ на: комментарий от Rastafarra 24.04.26 22:35:00 MSK

Все равно выглядит как суета и трэш)

Как говорил Генр Форд. (Не помню дословно) ну короче что его клиенты не смогли бы попросить у него автомобиль. Они бы попросили быструю лошадь. Так и тут. Клиент на самом деле зачастую и сам то не понимает до конца чего надо. А ты представляешь если такие толпой писать начнут в саппорт?

И ваще, я считаю что приложение банка существовать не должно, все можно и онлайн делать. Если уж приложение все таки надо, то оно должно быть простым. А то пошла мода перегружать приложение, дескать у них сервис. Да мне надо то только баланс посмотреть и перевод сделать жене, все. Я не хочу общаться с ИИ и листать сторис

~~karton1~~ ★★★★★
(24.04.26 22:42:58 MSK)

Ответ на: комментарий от Rastafarra 24.04.26 22:33:47 MSK

Прохладная история, бро

wandrien ★★★★
(24.04.26 22:46:04 MSK)

Ответ на: комментарий от karton1 24.04.26 22:42:58 MSK

ты представляешь если такие толпой писать начнут в саппорт?

так они и пишут. толпой. сотнями тысяч. на разных языках.

мне надо то только баланс посмотреть и перевод сделать жене, все.

ты как и я нищеброд, не ИП и в целом не юрик, там у людей натурально проблемы )

Rastafarra ★★★★
(24.04.26 22:47:41 MSK) автор топика

Ссылка

Ответ на: комментарий от wandrien 24.04.26 22:46:04 MSK

история о том, что в большой коммерции боты тащят.

это лютый инсайд, но назад пути нет.

Rastafarra ★★★★
(24.04.26 22:48:51 MSK) автор топика
Последнее исправление: Rastafarra 24.04.26 22:49:05 MSK (всего исправлений: 1)

Ответ на: комментарий от Rastafarra 24.04.26 22:48:51 MSK

Да, да, банковское приложение, разрабатываемое по запросам пользователей. СБ курит бамбук.

Смеялись всем шредером.

wandrien ★★★★
(24.04.26 22:50:22 MSK)

Ответ на: комментарий от windows10 24.04.26 22:30:24 MSK

Можно название банка, чтоб случайно не вляпаться?

Устанешь не вляпываться. Сейчас это цветёт и пахнет во всех сферах, люди вместо думать стремительно пытаются наляпать. Впрочем, так было всегда, но тут прям вышло на новый уровень.

Zhbert ★★★★★
(24.04.26 22:52:11 MSK)

Ответ на: комментарий от Zhbert 24.04.26 22:52:11 MSK

“Идиократия“ была пророчеством.

wandrien ★★★★
(24.04.26 22:53:15 MSK)

Ответ на: комментарий от wandrien 24.04.26 22:50:22 MSK

банковское приложение, разрабатываемое по запросам пользователей.

ннннннуууууу….. если полистать треды, которые я начал, там будет тред про банк, я лет 10 назад был причастен.

ты удивишься, но да. по запросам в том числе. и 10, и 20 лет назад, просто пользователь этот имеет лямов 10+, а не ты.

Rastafarra ★★★★
(24.04.26 22:57:20 MSK) автор топика

Ссылка

Это вопрос или предложение? Я не распробовал. qwen-code платный стал. Исследую другие бесплатные возможности. По моим развед данным народ стал аватары подделывать. Скоро встретиться с реальным человеком будет привилегией. Есть еще версия что инженерные профессии вымрут. Это называется новым технологическим укладом с использованием ИИ. Фантазируем дальше. Люди перестанут размножаться совсем. Их будут либо клонировать, либо выращивать в инкубаторах. Апокалипсис сегодня. Не слишком ли много событий на одно поколение человека?

jura12 ★★★
(24.04.26 23:01:05 MSK)

Ответ на: комментарий от jura12 24.04.26 23:01:05 MSK

Я не распробовал. qwen-code платный стал.

купи антропик макс, не ссы. ну допустим ты провафлиш 20к, да хрен с ним.

твой мир не будет прежним,

Rastafarra ★★★★
(24.04.26 23:03:05 MSK) автор топика

Ответ на: комментарий от Zhbert 24.04.26 22:52:11 MSK

Устанешь не вляпываться. Сейчас это цветёт и пахнет во всех сферах, люди вместо думать стремительно пытаются наляпать. Впрочем, так было всегда, но тут прям вышло на новый уровень.

Помню помню.

- Здравствуйте, коллеги ! Мы изобрели систему, распознающую и запускающую голосовые команды.

- Точно-точно?

- Точно-точно.

- Эй, компьютер, формат цэ, энтер !

~~windows10~~ ★★★★★
(24.04.26 23:12:12 MSK)

Ответ на: комментарий от windows10 24.04.26 23:12:12 MSK

ты рассказываешь байки времен скрипткиддис и sql инъекций.

было, да, вроде забороли.

слабовато со стратегией…

Rastafarra ★★★★
(24.04.26 23:17:32 MSK) автор топика

Ссылка

Ну план в целом хороший. Осталось сделать

cobold ★★★★★
(25.04.26 00:59:51 MSK)

Ссылка

Ответ на: комментарий от wandrien 24.04.26 22:53:15 MSK

неа

ибо фильма с Хенксом и Каприо «Поймай меня если сможешь» была паралельна фильме с библиотекарем в будущем - и при этом Х&К лицедеили ещё живых Frank William Abagnale и его «полуавтобиографию» который в свою очередь вполне мог ещё в детсаде листать Корнблатовских Marching morons которые сами были впечатлением автора от окружившей его действительности

т.е. социуму как целому приходится предоставлять занятость и тем с кого хрематистика меньше нуля

qulinxao3 ★☆
(25.04.26 05:46:30 MSK)

Ссылка

Ответ на: комментарий от Rastafarra 24.04.26 23:03:05 MSK

при всей правоте что оботывание реально улучшает биз.процы

нельзя не отметит

«продай почку купи яблфон(эпел)»

твой мир не будет прежним,

qulinxao3 ★☆
(25.04.26 05:48:42 MSK)

Ссылка

Ответ на: комментарий от jura12 24.04.26 23:01:05 MSK

как раз с инженегрией всё норм

а вот «крутить гайку» в офисном изводе - да будет реже встречаться в пампасах джунглей труда(найма)

зы. Капица про «2025»

qulinxao3 ★☆
(25.04.26 05:51:17 MSK)

Ссылка

Я своего рода ИИ-луддит, но предпочитаю знать врага в лицо. По этому юзаю облачные и локальные модели для чатинга и агентского кодинга.

Могу сказать, что это действительно впечатляет. Они очень хорошо справляются с пониманием кода и исправлением багов/добавлением фич. Я тестил на нескольких открытых проектах - везде справились. Главное дать внятный текст issue и тесткейсы. Причём, некоторые фичи были настолько сложные, что разработчики вместо исправления добавляли заглушки, а в commit message писали, что фикс вероятно затронет всю архитектуру, и делать его страшно.

Но я вижу, что «умность» моделей приближается к плато. Между конкурентами разница всё меньше и меньше, и даже относительно небольшие локальные модели догоняют топовые. Например, плотная gemma4 с чате отвечает очень близко по качеству к чатужпт (я сейчас почти всё у неё спрашиваю, вместо ручного гуглинга). А qwen3.6 27B/35B кодит на уровне топовых моделей полугодовой давности. По этому, если не будет какого-то качественного скачка, то разработчикам моделей придётся или усиленно возвращать обратно алгоритмы (большие данные таки не победили), или отдавать бабки инвесторам.

Puzan ★★★★★
(25.04.26 07:44:38 MSK)

Какой план на случай если клиент создаст хотелку на слив всех данных с серверов разработки и открытие бекдоора для него

История прохладная, ни один безопасник такое не разрешит

Gary ★★★★★
(25.04.26 08:18:36 MSK)

Ссылка

Claude.ai

~~bloodmeri~~ ☆
(25.04.26 11:11:16 MSK)

Ссылка

Ответ на: комментарий от Rastafarra 24.04.26 23:03:05 MSK

Мне бесплатный claude.ai сделал работу , реальную.
Маленькую , да , но реальный проэкт , я тут писал , вообще не тривиальный кейс , замечательно сделал.

Иногда говорил «приходи вечером» , и предлагал заплатить деньги , но работу сделал.

~~bloodmeri~~ ☆
(25.04.26 11:16:44 MSK)

Ссылка

это типа Jenkins/Gitlab переизобрели?🤡🤡🤡

etwrq ★★★★★
(25.04.26 11:31:30 MSK)

Ответ на: комментарий от Puzan 25.04.26 07:44:38 MSK

qwen3.6 27B/35B кодит на уровне топовых моделей полугодовой давности. По этому, если не будет какого-то качественного скачка, то разработчикам моделей придётся или усиленно возвращать обратно алгоритмы (большие данные таки не победили), или отдавать бабки инвесторам.

да, его и гоняю у себя, без квантирования.

и да, отчасти тревожно :)

Rastafarra ★★★★
(25.04.26 12:06:44 MSK) автор топика

Ответ на: комментарий от etwrq 25.04.26 11:31:30 MSK

это компилятор переизобрели. с человеческого.

Rastafarra ★★★★
(25.04.26 12:07:41 MSK) автор топика

Ссылка

Ответ на: комментарий от Rastafarra 25.04.26 12:06:44 MSK

Не сравнивал качество кантованой vs неквантованой модели?

Puzan ★★★★★
(25.04.26 12:50:55 MSK)

Ответ на: комментарий от Puzan 25.04.26 12:50:55 MSK

метрики надо придумать, тут скорее на уровне «бесит» или «не бесит».

пока что эта 27бэ не бесит.

подумываю про больше этих бэ.

но, раз ты апологет, поделись, как ты оркестрируешь это дело? не «вот тебе ТЗ, делай» же, а этапность же у тебя есть, типа плана, указаний где и что делать, чтоб тупишек было меньше.

есть пример?

Rastafarra ★★★★
(25.04.26 13:59:17 MSK) автор топика

Ответ на: комментарий от Rastafarra 25.04.26 13:59:17 MSK

На чем пускаешь? Какая производительность?

sabacs
(25.04.26 15:12:50 MSK)

Ответ на: комментарий от Rastafarra 24.04.26 23:03:05 MSK

купи антропик макс

недостаточно просто купить. Этой штукой надо научиться пользоваться. Чтобы учиться хватит 20 баксов надолго. Я только недавно начал упираться в лимиты 20 баксов.

qaqa ★★
(25.04.26 16:23:40 MSK)

Ответ на: комментарий от Rastafarra 25.04.26 13:59:17 MSK

но, раз ты апологет, поделись, как ты оркестрируешь это дело?

Да я, собственно, пока не такой мастер над ИИ, чтоб тут советы раздавать :)

Для кодинга использую opencode. В первую очередь пишу что-то типа ТЗ или issue для бага. Если это баг, то сразу добавляю тестовые сценарии, объясняю какие доки он должен прочитать перед тем, как приступать. Прошу изучить репозиторий и составить план. План сохраняю в файл и прошу записать туда всю необходимую инфу по задаче и то, что он накопал по репозиторию. Потом в новой сессии прошу оценить план. Если всё Ок, в новой сессии он пишет код и прогоняет тесты, пока не заработает. В конце прошу, чтобы он написал подробный explanations по внесённым правкам (это скорее для меня, чтобы быть в курсе). Опять открываю новую сессию, даю план и explanations и прошу сделать ревью изменений. Если всё Ок, делаю коммит и пишу текст pull-реквеста.

Ревью плана и изменений лучше дополнительно давать другой модели, например Гемме. Они обычно друг против друга хорошо работают.

Вообще, это можно во-первых делать с помощью сабагентов (иногда так и делаю, но пока не приноровился). А во-вторых можно автоматизировать через структуру внешних файлов. Но это я пока даже не пробовал. У меня товарищ такое практикует, но он прям плотно кодит свой пет-проект - запускает несколько сессий опенкода и они там друг с другом переписываются. У меня пока времени нет на такое погружение.

Я так понял, важно обнулять контекст и обязательно делать ревью. И не забывать, что модель не помнит предыдущую работу, и ей надо заново всё объяснять. А для этого надо правильно организовывать память и не сильно её раздувать. Ну и потом самому полезно изучить всё то, что он написал. Благо, пояснять код они хорошо умеют.

Кстати, полезная штука - форк. Например, просишь что-то объяснить, что самому непонятно, долго беседуешь, схраняешь бриф в файл и откатываешься к тому месту, где попросил объяснений. И продолжаешь с незамусоренным контекстом.

Puzan ★★★★★
(25.04.26 16:25:46 MSK)

Ответ на: комментарий от Rastafarra 25.04.26 12:06:44 MSK

Да, надо обсудить тему про локальные модели. Ходят слухи, что надо продавать почку и брать mac studio c 512GB оперативки, чтобы локальные модели шуршали. Стоит ли оно того, или это хайп очередной?

qaqa ★★
(25.04.26 16:26:29 MSK)

Доктор, мой сосед говорит, что может раз в несколько месяцев...

ratvier ★★
(25.04.26 20:57:56 MSK)

Ссылка

Ответ на: комментарий от sabacs 25.04.26 15:12:50 MSK

На чем пускаешь? Какая производительность?

пока пара а6000, едут h

Rastafarra ★★★★
(25.04.26 23:01:28 MSK) автор топика

Ответ на: комментарий от qaqa 25.04.26 16:23:40 MSK

Я только недавно начал упираться в лимиты 20 баксов.

я мгновенно уперся в лимит 200 )))

Rastafarra ★★★★
(25.04.26 23:01:58 MSK) автор топика

Ответ на: комментарий от Puzan 25.04.26 16:25:46 MSK

это театр одного актера, на мой вкус это не масштабируемо на предприятие…

или предприятие актеров, но вроде не по феншую, нет в этом конвеера…

Rastafarra ★★★★
(25.04.26 23:03:51 MSK) автор топика

Ответ на: комментарий от qaqa 25.04.26 16:26:29 MSK

брать mac studio c 512GB оперативки

почему нет.

или 3-4 h200, например. и уже можно о чем-то поговорить.

Rastafarra ★★★★
(25.04.26 23:04:44 MSK) автор топика

Ссылка

Ответ на: комментарий от Rastafarra 25.04.26 23:03:51 MSK

на мой вкус это не масштабируемо на предприятие

В каком смысле? Что должно масштабироваться?

Puzan ★★★★★
(25.04.26 23:42:07 MSK)

Ответ на: комментарий от Puzan 25.04.26 23:42:07 MSK

ну как, война дев — тест например.

и чьей кровью будет подписан приемо-сдаточные?

модель же тоже косячит… пока :)

Rastafarra ★★★★
(25.04.26 23:44:09 MSK) автор топика

Ответ на: комментарий от Rastafarra 25.04.26 23:44:09 MSK

и чьей кровью будет подписан приемо-сдаточные?

Ну пока ответственность на человеке, не важно каким инструментом он пользовался. Если меня за мой пулл-реквест погонят ссаными тряпками, то сам виноват.

Puzan ★★★★★
(25.04.26 23:50:08 MSK)

Ответ на: комментарий от Puzan 25.04.26 23:50:08 MSK

ты видимо разраб.

есть контора, 1000 человек (хотя кого счиать человеком )) ), есть процесс разработки.

один — всё? код-сборка-тест?

или «команды» с ответственностью? тогда как?

как будто мы идем в 90-е, «царь во дворца». нет в этом мануфактуры.

Rastafarra ★★★★
(25.04.26 23:55:35 MSK) автор топика

Разбирал с бесплатным llm от google кое-какие бинарные данные. Первую порцию разобрали хорошо. На второй порции начал галлюционировать кусочками бинарных данных из предыдущего разбора данных. И ведь признавал что да, действительно галлюционирует, сожалел и извинялся, но ничего не мог поделать - никак не мог выбросить их из контекста, всюду видел последовательность байт, которая намертво выгорела в его памяти и примешивалась во все другие бинарные данные. Фактически, работа была намертво сломана, пришлось начинать сессию с начала.

LLM могут многое, но доверять им не стоит.

Leupold_cat ★★★★★
(26.04.26 01:01:25 MSK)
Последнее исправление: Leupold_cat 26.04.26 01:03:14 MSK (всего исправлений: 2)

Ответ на: комментарий от Rastafarra 25.04.26 23:01:28 MSK

Как то дороговато получается.

sabacs
(26.04.26 06:10:14 MSK)

Ссылка

Ответ на: комментарий от Rastafarra 25.04.26 23:01:58 MSK

я мгновенно уперся в лимит 200 )))

Это если включить только Opus и использовать его для всего, тогда да.

qaqa ★★
(26.04.26 08:32:47 MSK)

Ссылка

Я на озоне пару раз писал в техподдержку, сообщал о косяках на сайте. Ничего не починили (уже больше года прошло). Наверное я не такой важный клиент:)

Beewek ★★★
(26.04.26 09:40:12 MSK)