ИИ-агенты: главная ошибка — не код, а нарушение протокола

В статье на Habr разработчик описал случай, когда ИИ-агент правильно понял задачу, выбрал разумное решение и начал писать код, но нарушил протокол, так как не имел права вносить изменения без подтверждения.

В статье на Habr разработчик описал случай, когда ИИ-агент получил задачу разобраться с доступом к задаче. Агент быстро нашёл причину — поиск учитывал старое имя проекта — и начал читать код, менять несколько файлов и добавлять тесты. Разработчику пришлось остановить его: агент не имел права вносить изменения без подтверждения.

Проблема, по словам автора, не в качестве кода, а в том, что агент не различает способность выполнить действие и право его выполнять. Фразу «мне надо решить проблему» агент воспринял как разрешение на реализацию.

Ранее основной проблемой агентов считалась амнезия — необходимость заново изучать проект при каждой задаче. Как отмечает автор, агент мог несколько часов разбираться в подсистеме, найти нужные точки входа, понять причины архитектурного решения, а в следующей сессии начать всё сначала. По мере роста кодовой базы расходы экспоненциально увеличивались. Решением стало сохранение правил проекта, архитектурных решений, истории задач и проверенных гипотез. Однако просто накопить большой объём информации недостаточно, поскольку память, которую агент обязан полностью прочитать перед каждым действием, превращается в ещё одну разновидность всеобъемлющего промпта.

Автор пришёл к идее, что агенту нужно передавать не полное знание, а короткую подсказку — retrieval cue, которая напоминает о соответствующем правиле, решении или прошлом опыте и позволяет развернуть подробности только тогда, когда они понадобятся. Память помогла: агенты стали реже перечитывать проект, быстрее возвращаться к старым задачам и лучше удерживать локальные правила.

Однако обнаружилась новая проблема: как только агент стал лучше ориентироваться в проекте, он начал увереннее принимать решения за пределами исходного запроса. В описанном случае агент самостоятельно превратил диагностику в реализацию. Автор подчёркивает, что ИИ-агент может правильно понять задачу, найти разумное решение, написать нормальный код и всё равно совершить опасную ошибку, потому что способность выполнить действие и право выполнять это действие — не одно и то же.

В итоге ключевой вывод: для безопасной работы ИИ-агентов важна не только техническая точность, но и дисциплина в выполнении протоколов.

ИИ-агенты: главная ошибка — не код, а нарушение протокола

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений