Чем больше автономии у ИИ-агента, тем хуже: разбор кейса с 81% принятых пул-реквестов

Подготовлено редакцией Malakhov AI

Habr AI·1 июн.·4 минРоссияКод

Мейнтейнер KubeStellar Console Энди Андерсон довёл долю принятых пул-реквестов до 81%, работая почти в одиночку с двумя кодинг-агентами. Но главное в его опыте — не цифра, а механика: почему стандартный совет «дайте агенту больше автономии» приводит к обратному результату.

Кратко

—Первые две недели Андерсон работал в режиме эйфории: трёхдневные задачи закрывались за два часа, но затем сборки начали ломаться каскадом.
—Ключевой тезис: интеллект в ИИ-ассистированной кодовой базе живёт не в модели, а в петлях обратной связи вокруг неё.
—Гайд с причинами отклонения PR покрыл около 90% критериев — это самое дешёвое вмешательство с наибольшей отдачей.
—PR категории operator принимались лишь в 8% случаев (11 мёржей против 129 закрытых) — вес обнулили, циклы CI перенаправили.
—Замена «исправь баг» на «почему ты это не отловил?» даёт не патч, а анализ первопричины и правило, блокирующее целый класс ошибок.

Глоссарий · 6 терминов▾

Пул-реквест (PR): Запрос на включение изменений кода в основную ветку репозитория, который проходит ревью перед принятием или отклонением.
Петля обратной связи: Замкнутый цикл, в котором результат работы агента измеряется и этот сигнал возвращается в систему, корректируя её дальнейшее поведение.
Флаки-тест (flaky test): Автоматический тест, который нестабильно проходит или падает без изменений в коде, создавая ненадёжный сигнал для системы.
Мультикластер Kubernetes: Конфигурация, при которой несколько независимых кластеров Kubernetes управляются как единая инфраструктура.
CNCF Sandbox: Начальная стадия инкубации проектов в Cloud Native Computing Foundation — фонде, развивающем открытые облачные технологии.
CI (Continuous Integration): Практика автоматической сборки и тестирования кода при каждом изменении в репозитории.

Энди Андерсон, мейнтейнер KubeStellar Console, опубликовал в блоге CNCF подробный разбор своего опыта: он собрал дашборд для управления мультикластерами Kubernetes, работая почти в одиночку с двумя кодинг-агентами в параллельных сессиях терминала. Доля принятых пул-реквестов достигла 81%. Эта цифра вынесена в заголовок оригинала — и именно поэтому она наименее интересная часть истории.

Первые две недели были эйфорией: трёхдневные задачи закрывались за два часа, код выходил быстрее, чем Андерсон успевал его читать. Потом всё рухнуло. Сборки ломались так, что причину не отследить. Вчерашние архитектурные решения тихо переписывались. Чинишь одно — ломаются три. Откаты начали занимать больше времени, чем ревью. Этот сценарий хорошо знаком всем, кто пробовал делегировать агенту крупные задачи без структуры вокруг него.

Ступень	Название	Ключевое действие
1	Assisted	Агент помогает, человек контролирует каждый шаг
2	Instructed	Критерии отклонения PR вынесены в явный гайд
3	Measured	Тесты и метрики формируют слой доверия к агенту
4	Adaptive	Веса задач корректируются по данным о принятии PR
5	Self-Sustaining	Контур работает и улучшается с минимальным участием человека

Стандартный совет индустрии в такой ситуации — дать агенту больше автономии: пусть работает дольше, трогает больше файлов, сам себя исправляет. Андерсон говорит ровно обратное. По его опыту, этот сценарий только усугубляет проблему. Центральный тезис его статьи: интеллект в ИИ-ассистированной кодовой базе живёт не столько в модели, сколько в петлях обратной связи, которыми оборачивается кодовая база. Чтобы агент делал больше, не модель должна стать умнее — среда вокруг неё должна давать больше сигналов для контроля. Автономия без сигналов — это не ускорение, это разгон в тумане.

Ключевой тезис: интеллект в ИИ-ассистированной кодовой базе живёт не в модели, а в петлях обратной связи вокруг неё.

Петля обратной связи здесь — замкнутый цикл: агент сделал → результат измерили → сигнал вернулся в систему → поведение скорректировалось. Противоположность — открытая труба: агент генерирует, никто не проверяет, ошибки накапливаются. Именно это Андерсон описывает в фазе «всё рухнуло»: петли ещё не было, был неконтролируемый поток.

Андерсон выстраивает «модель зрелости ИИ-кодовой базы» из пяти ступеней: Assisted → Instructed → Measured → Adaptive → Self-Sustaining. Порядок нельзя переставить — это важнее самих названий. На ступени Instructed он вынес наружу критерии отклонения PR: гайд покрыл около 90% причин, по которым он раньше закрывал сгенерированные запросы. Самое дешёвое вмешательство с наибольшей отдачей — не держать критерии «хорошо» в голове, а вынести их в файл, который читают все сессии агента.

На ступени Measured обнаруживается недооценённый тезис: тест в человеческом процессе и тест в автономном — два разных артефакта с разным потребителем сигнала. Нестабильный тест в человеческом процессе — раздражение. В автономном — медленная эрозия всей модели доверия. Изменился не набор инженерных практик: тесты, документация, CI и конвенции были важны всегда. Изменился их читатель. Раньше сигналы репозитория потреблял человек, умеющий прощать пробелы суждением. Теперь их потребляет агент, который буквально не видит того, чего нет в сигнале. Цена флаки-теста, неполного покрытия и недописанной документации в автономном контуре резко выросла.

На ступени Adaptive данные начали управлять приоритетами. PR по доступности принимались на 62% — вес подняли. PR категории operator принимались лишь в 8% случаев: 11 мёржей против 129 закрытых — вес обнулили, циклы CI перенаправили. Принцип формулируется одной строкой: сначала измерение, потом автоматизация. Обратный порядок — способ, которым автономные системы сходят с рельсов.

Здесь уместна скептическая ремарка. «Принятие пул-реквеста» в системе, где агент и генерирует, и судит по правилам мейнтейнера, — это во многом метрика согласованности генератора с судьёй, а не внешнего качества. 81% частично означает «агент научился попадать в мои же критерии». Это не обесценивает результат, но это не то же самое, что «81% кода объективно хорош». Андерсон частично закрывает этот вопрос: у него ежечасный GA4-запрос заводит issue по всплескам ошибок в проде раньше, чем жалуются пользователи. Внешний сигнал в петле есть. Но в пересказах он обычно теряется — и без него вся конструкция превращается в метрики ради метрик.

Отдельно стоит привычка в промптинге, которую Андерсон считает ключевой. Вместо «исправь этот баг» он стал спрашивать: «Почему ты это не отловил?» Первая формулировка даёт патч. Вторая — анализ первопричины и, как побочный продукт, новый тест или правило, блокирующее целый класс похожих сбоев. Команды дают цепочку изолированных заплаток. Вопросы накапливаются в систему.

Сам Андерсон честно обозначает границы применимости своего опыта. Это n=1: один мейнтейнер, один проект в Sandbox CNCF, старт с нуля в декабре без легаси. Перенести подход на legacy-монолит с сорока контрибьюторами и кусками кода, которые «работают, и не трогай» — стоимость входа в ступень Measured вырастает на порядок. 63 воркфлоу, 32 ночных набора тестов, покрытие 91% по двенадцати шардам — это не бесплатно. Вся сложность не исчезла: она переехала из написания кода в построение и поддержку контура, который этот код измеряет. Для проекта с правильным доменом и одним владельцем суждения — выгодный обмен. Для команды без культуры тестирования — просто другой, не менее тяжёлый труд под новым названием.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам