Amazon Bedrock AgentCore Observability — новый набор возможностей для отладки ИИ-агентов в production. Вместо традиционных логов и метрик, которые не показывают логику принятия решений, он предлагает три уровня: метрики для системного мониторинга, трассы для отслеживания каждого шага рассуждений и структурированные логи для детального анализа. Это позволяет разработчикам не только обнаружить сбой, но и понять его причину.

Производственные ИИ-агенты часто выдают правдоподобные, но неверные ответы, входят в бесконечные циклы или выбирают неверные инструменты — и всё это без ошибок в стандартном мониторинге. Amazon Bedrock AgentCore Observability решает эту проблему, давая видимость того, как агент принимал решения: какие инструменты вызвал, на каком этапе цепочка сломалась. Инструменты доступны через Amazon CloudWatch: дашборды показывают объём сессий, задержки, использование токенов и частоту ошибок. При аномалиях можно настроить автоматические оповещения.

В материале (часть 1 из двух) разбираются три категории сбоев. Качественные сбои: агент выполняет задачу, но выдаёт неверный результат — галлюцинации, ссылки на несуществующие политики, передача ошибок между агентами. Проблемы надёжности: ошибки вызова инструментов (401, 403, 400), потеря контекста сессии. Проблемы эффективности: высокая задержка, избыточное потребление токенов — агент генерирует слишком многословные ответы или повторяет вызовы без кеширования. Для каждого типа сбоя предлагаются методы диагностики через трассы и метрики CloudWatch.

Observability включает метрики, трассы и структурированные логи для анализа поведения агента.

CloudWatch GenAI Observability dashboard showing 266.9K total tokens consumed with a 0% error rate
CloudWatch GenAI Observability dashboard showing 266.9K total tokens consumed with a 0% error rate · Источник: AWS Machine Learning Blog

Для работы с AgentCore Observability требуется AWS-аккаунт с включённым доступом к Amazon Bedrock AgentCore, знание Amazon CloudWatch и IAM, а также включённая Transaction Search в CloudWatch. Статья — первая часть серии; вторая будет посвящена оптимизации производительности и управлению памятью.