Качество ИИ-агентов деградирует незаметно: модели обновляются, поведение пользователей меняется, а промпты начинают работать в контекстах, для которых не предназначались. До сих пор стандартный ответ на жалобу пользователя выглядел так: разработчик вручную читает трейсы, строит гипотезу, переписывает промпт, проверяет несколько случаев и деплоит — нередко порождая новую проблему для другого пользователя.
Amazon Web Services перевела этот процесс в автоматический цикл. AgentCore Optimization, вышедший в preview, состоит из трёх связанных компонентов. Первый — Recommendations API: он обращается к CloudWatch Log group, где агент пишет трейсы, и на основе выбранного сигнала качества (встроенного или кастомного оценщика) предлагает изменения системного промпта или описаний инструментов. Описания инструментов правятся без вмешательства в их реализацию — сервис меняет только то, что влияет на выбор инструмента моделью.
| Компонент | Что делает | Когда применять |
|---|---|---|
| Recommendations API | Анализирует трейсы и предлагает изменения промпта или описаний инструментов | Когда нужна отправная точка для улучшения |
| Batch-оценка | Прогоняет агента на датасете и сравнивает метрики с базовой версией | Для проверки на известных тест-кейсах до продакшна |
| A/B-тестирование | Делит живой трафик между версиями, возвращает p-value и доверительные интервалы | Для валидации на реальном трафике перед полным переключением |
Второй компонент — batch-оценка. Новая конфигурация прогоняется на заранее подготовленном датасете, результаты сравниваются с базовой версией по агрегированным метрикам: процент достижения цели, точность выбора инструмента, полезность, безопасность. Команды встраивают этот шаг в CI/CD-пайплайны, чтобы ни одно изменение не попало в продакшн без прохождения известных тест-кейсов. Если готовых сценариев недостаточно, датасет можно сгенерировать с помощью LLM-актора, симулирующего поведение конечного пользователя.
Batch-оценка запускает агента на заранее подготовленном датасете и сравнивает агрегированные метрики с базовой версией.
Третий компонент — A/B-тестирование через AgentCore Gateway. Живой трафик делится между контрольной и экспериментальной версиями в заданной пропорции. Каждая сессия оценивается онлайн, результаты включают доверительные интервалы и p-value. Когда данных достаточно, победившую версию можно сделать основной одной командой; откат — пауза теста, агент возвращается к предыдущей конфигурации.
Конфигурации в AgentCore упакованы в бандлы — иммутабельные версионированные снапшоты, содержащие идентификатор модели, системный промпт и описания инструментов. Агент читает активный бандл динамически через AgentCore SDK, поэтому смена промпта или модели — это операция с конфигурацией, а не с кодом. Для изменений, затрагивающих код, предусмотрен отдельный путь: деплой на отдельный runtime-эндпоинт с последующим подключением через Gateway.
Трейсы в AgentCore совместимы с форматом OpenTelemetry и фиксируют каждый вызов модели, обращение к инструменту и шаг рассуждения. Это та же инфраструктура наблюдаемости, которую тысячи разработчиков уже используют в AgentCore для отладки. Optimization надстраивается над ней, превращая накопленные данные в сигнал для улучшения.
В текущем preview цикл запускается вручную: разработчик сам решает, когда генерировать рекомендацию, какой оценщик использовать и продвигать ли результат. В дорожной карте AWS — автоматический запуск по алертам мониторинга (когда метрика падает ниже порога, сервис сам инициирует рекомендацию и кладёт результат в очередь на ревью), а также расширение оптимизации на навыки агента: предложение новых или уточнение существующих на основе production-данных. Демонстрационный агент Market Trends Agent, ориентированный на инвестиционных брокеров, опубликован на GitHub.



