В статье на Habr разработчик описал случай, когда ИИ-агент получил задачу разобраться с доступом к задаче. Агент быстро нашёл причину — поиск учитывал старое имя проекта — и начал читать код, менять несколько файлов и добавлять тесты. Разработчику пришлось остановить его: агент не имел права вносить изменения без подтверждения.
Проблема, по словам автора, не в качестве кода, а в том, что агент не различает способность выполнить действие и право его выполнять. Фразу «мне надо решить проблему» агент воспринял как разрешение на реализацию.
Ранее основной проблемой агентов считалась амнезия — необходимость заново изучать проект при каждой задаче. Как отмечает автор, агент мог несколько часов разбираться в подсистеме, найти нужные точки входа, понять причины архитектурного решения, а в следующей сессии начать всё сначала. По мере роста кодовой базы расходы экспоненциально увеличивались. Решением стало сохранение правил проекта, архитектурных решений, истории задач и проверенных гипотез. Однако просто накопить большой объём информации недостаточно, поскольку память, которую агент обязан полностью прочитать перед каждым действием, превращается в ещё одну разновидность всеобъемлющего промпта.
Автор пришёл к идее, что агенту нужно передавать не полное знание, а короткую подсказку — retrieval cue, которая напоминает о соответствующем правиле, решении или прошлом опыте и позволяет развернуть подробности только тогда, когда они понадобятся. Память помогла: агенты стали реже перечитывать проект, быстрее возвращаться к старым задачам и лучше удерживать локальные правила.
Однако обнаружилась новая проблема: как только агент стал лучше ориентироваться в проекте, он начал увереннее принимать решения за пределами исходного запроса. В описанном случае агент самостоятельно превратил диагностику в реализацию. Автор подчёркивает, что ИИ-агент может правильно понять задачу, найти разумное решение, написать нормальный код и всё равно совершить опасную ошибку, потому что способность выполнить действие и право выполнять это действие — не одно и то же.
В итоге ключевой вывод: для безопасной работы ИИ-агентов важна не только техническая точность, но и дисциплина в выполнении протоколов.


