AWS запустила AgentCore Optimization: автоматический цикл улучшения ИИ-агентов

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·4 мая·3 минЛабораторииКод

Amazon Bedrock AgentCore получил новый модуль Optimization — систему, которая анализирует production-трейсы, генерирует рекомендации по улучшению агента и проверяет их через batch-оценку и A/B-тестирование на живом трафике. Инструмент переводит ручной процесс отладки в повторяемый цикл с измеримыми результатами.

Кратко

—AgentCore Optimization анализирует production-трейсы и предлагает конкретные изменения системного промпта или описаний инструментов.
—Batch-оценка запускает агента на заранее подготовленном датасете и сравнивает агрегированные метрики с базовой версией.
—A/B-тестирование через AgentCore Gateway делит живой трафик между версиями и возвращает результаты с p-value и доверительными интервалами.
—Конфигурации упакованы в иммутабельные версионированные бандлы — смена промпта или модели не требует изменения кода.
—Модуль доступен в preview; в планах — автозапуск рекомендаций по алертам мониторинга и оптимизация навыков агента.

Глоссарий · 6 терминов▾

production-трейс: Запись всех шагов работы агента в реальных условиях: вызовов модели, обращений к инструментам и промежуточных рассуждений.
OpenTelemetry: Открытый стандарт для сбора данных наблюдаемости — трейсов, метрик и логов — совместимый с большинством облачных платформ.
LLM-as-judge: Подход, при котором языковая модель выступает автоматическим оценщиком качества ответов другой модели или агента.
бандл (configuration bundle): Иммутабельный версионированный снапшот конфигурации агента: модель, системный промпт и описания инструментов в одном объекте.
p-value: Статистический показатель, отражающий вероятность того, что наблюдаемое различие между вариантами случайно, а не вызвано изменением конфигурации.
CI/CD-пайплайн: Автоматизированная цепочка сборки, тестирования и доставки изменений в продакшн без ручного вмешательства.

Качество ИИ-агентов деградирует незаметно: модели обновляются, поведение пользователей меняется, а промпты начинают работать в контекстах, для которых не предназначались. До сих пор стандартный ответ на жалобу пользователя выглядел так: разработчик вручную читает трейсы, строит гипотезу, переписывает промпт, проверяет несколько случаев и деплоит — нередко порождая новую проблему для другого пользователя.

Amazon Web Services перевела этот процесс в автоматический цикл. AgentCore Optimization, вышедший в preview, состоит из трёх связанных компонентов. Первый — Recommendations API: он обращается к CloudWatch Log group, где агент пишет трейсы, и на основе выбранного сигнала качества (встроенного или кастомного оценщика) предлагает изменения системного промпта или описаний инструментов. Описания инструментов правятся без вмешательства в их реализацию — сервис меняет только то, что влияет на выбор инструмента моделью.

Компонент	Что делает	Когда применять
Recommendations API	Анализирует трейсы и предлагает изменения промпта или описаний инструментов	Когда нужна отправная точка для улучшения
Batch-оценка	Прогоняет агента на датасете и сравнивает метрики с базовой версией	Для проверки на известных тест-кейсах до продакшна
A/B-тестирование	Делит живой трафик между версиями, возвращает p-value и доверительные интервалы	Для валидации на реальном трафике перед полным переключением

Второй компонент — batch-оценка. Новая конфигурация прогоняется на заранее подготовленном датасете, результаты сравниваются с базовой версией по агрегированным метрикам: процент достижения цели, точность выбора инструмента, полезность, безопасность. Команды встраивают этот шаг в CI/CD-пайплайны, чтобы ни одно изменение не попало в продакшн без прохождения известных тест-кейсов. Если готовых сценариев недостаточно, датасет можно сгенерировать с помощью LLM-актора, симулирующего поведение конечного пользователя.

Batch-оценка запускает агента на заранее подготовленном датасете и сравнивает агрегированные метрики с базовой версией.

Третий компонент — A/B-тестирование через AgentCore Gateway. Живой трафик делится между контрольной и экспериментальной версиями в заданной пропорции. Каждая сессия оценивается онлайн, результаты включают доверительные интервалы и p-value. Когда данных достаточно, победившую версию можно сделать основной одной командой; откат — пауза теста, агент возвращается к предыдущей конфигурации.

Конфигурации в AgentCore упакованы в бандлы — иммутабельные версионированные снапшоты, содержащие идентификатор модели, системный промпт и описания инструментов. Агент читает активный бандл динамически через AgentCore SDK, поэтому смена промпта или модели — это операция с конфигурацией, а не с кодом. Для изменений, затрагивающих код, предусмотрен отдельный путь: деплой на отдельный runtime-эндпоинт с последующим подключением через Gateway.

Трейсы в AgentCore совместимы с форматом OpenTelemetry и фиксируют каждый вызов модели, обращение к инструменту и шаг рассуждения. Это та же инфраструктура наблюдаемости, которую тысячи разработчиков уже используют в AgentCore для отладки. Optimization надстраивается над ней, превращая накопленные данные в сигнал для улучшения.

В текущем preview цикл запускается вручную: разработчик сам решает, когда генерировать рекомендацию, какой оценщик использовать и продвигать ли результат. В дорожной карте AWS — автоматический запуск по алертам мониторинга (когда метрика падает ниже порога, сервис сам инициирует рекомендацию и кладёт результат в очередь на ревью), а также расширение оптимизации на навыки агента: предложение новых или уточнение существующих на основе production-данных. Демонстрационный агент Market Trends Agent, ориентированный на инвестиционных брокеров, опубликован на GitHub.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза

Продолжить по разделам

AWS запустила AgentCore Optimization: автоматический цикл улучшения ИИ-агентов

Кратко

Читать дальше

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Stripe на 26% ускорил compliance-проверки с помощью ИИ-агентов на AWS Bedrock

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза