Strands Evals SDK: автоматическая диагностика сбоев ИИ-агентов в продакшне

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·15 июн.·2 минЛабораторииКод

AWS выпустила в составе Strands Evals SDK инструмент Detectors, который сокращает время диагностики сбоев ИИ-агентов с часов до минут — за счёт автоматического анализа трассировок выполнения и построения цепочек первопричин. Инструмент работает поверх Amazon Bedrock и доступен через pip install strands-agents-evals.

Кратко

—Detectors анализируют трассировки агентов в два этапа: сначала выявляют сбои по девяти категориям, затем строят причинно-следственные цепочки.
—Каждый сбой получает метку категории, оценку уверенности (confidence score) и доказательство из трассировки — без ручного просмотра логов.
—Инструмент классифицирует причины как PRIMARY, SECONDARY или TERTIARY и указывает, где именно исправлять: в системном промпте или в описании инструмента.
—Для больших сессий SDK использует три стратегии: прямой анализ, обрезку пути сбоя и чанкованный анализ с объединением результатов.
—Detectors интегрируются в пайплайн оценки Strands Evals и дополняют метрики (goal success rate, tool accuracy) конкретными диагнозами.

Глоссарий · 7 терминов▾

спан (span): Единица трассировки, фиксирующая один шаг выполнения агента: вызов инструмента, обращение к LLM или внутреннюю операцию.
трассировка (execution trace): Полная запись последовательности действий агента одной сессии, состоящая из спанов.
confidence score: Числовая оценка от 0 до 1, показывающая, насколько уверен детектор в том, что выявленный сбой произошёл.
goal success rate: Доля сессий, в которых агент полностью выполнил поставленную задачу — основная метрика качества в Strands Evals.
OpenTelemetry: Открытый стандарт сбора телеметрии (трассировок, метрик, логов) для распределённых систем, поддерживаемый большинством облачных платформ.
LLM (Large Language Model): Большая языковая модель — нейросеть, обученная на текстах и способная генерировать связные ответы, анализировать данные и выполнять инструкции.
Amazon Bedrock: Управляемый сервис AWS для запуска и настройки больших языковых моделей от разных провайдеров через единый API.

Когда ИИ-агент в продакшне начинает ошибаться, команда обычно видит только итог: goal success rate упал с 85% до 70%. Дальше начинается ручная работа — инженер открывает трассировки, просматривает сотни спанов и пытается понять, где именно сломалась логика. AWS предлагает автоматизировать этот процесс с помощью Detectors — нового компонента Strands Evals SDK.

Detectors работают в два последовательных этапа. На первом функция detect_failures сканирует каждый спан сессии и сопоставляет его с таксономией из девяти родительских категорий сбоев: галлюцинации, некорректные действия, ошибки оркестрации, несоответствие инструкциям задачи, ошибки выполнения, ошибки обработки контекста, повторяющееся поведение, проблемы с выводом LLM и несоответствие конфигурации. Для каждого выявленного сбоя возвращается идентификатор спана, одна или несколько категорий, оценка уверенности и доказательство, извлечённое из трассировки.

Категория сбоя	Пример из демо	Оценка уверенности
execution-error-category-tool-schema	Отсутствует обязательный параметр knowledgeBaseId	0.9
hallucination-category-hall-usage	Агент отвечает «из общих знаний», не используя инструменты	0.75
orchestration-related-errors-category-goal-deviation	Агент переключается на тему морской биологии вместо задачи	0.9

На втором этапе функция analyze_root_cause берёт список обнаруженных сбоев и выстраивает причинно-следственные цепочки. Один сбой в начале цепочки нередко порождает несколько симптомов ниже по потоку. Инструмент присваивает каждому сбою статус PRIMARY, SECONDARY или TERTIARY, оценивает масштаб распространения и формирует рекомендацию: что именно менять — системный промпт, описание инструмента или что-то иное.

Каждый сбой получает метку категории, оценку уверенности (confidence score) и доказательство из трассировки — без ручного просмотра логов.

Detector pipeline diagram showing two entry points (integrated and standalone) flowing into the failure detection phase and the root cause analysis phase, which produces categorized failures, causal chains, and fix recommendations. · Источник: AWS Machine Learning Blog

В демонстрационном примере из публикации агент-исследователь получил задание изучить энергопотребление ИИ-систем. Детектор за один проход выявил три уровня деградации: ошибку выполнения (инструмент упал из-за отсутствия обязательного параметра knowledgeBaseId с оценкой уверенности 0,9), семантическую проблему (агент заявил об отсутствии доступа к базе знаний, а затем выдал развёрнутый ответ «из общих знаний» — оценка 0,75) и полное отклонение от цели (агент переключился на рассказ о морской биологии — оценка 0,9). Каждый спан может одновременно нести несколько категорий сбоев с независимыми оценками.

Для работы с большими сессиями SDK применяет три стратегии в зависимости от объёма трассировки: прямой анализ, если сессия умещается в контекстное окно выбранной модели; обрезку пути сбоя с сохранением только предков и потомков проблемных спанов для средних сессий; чанкованный анализ с перекрывающимися окнами и последующим объединением результатов для очень больших сессий.

Detectors дополняют, а не заменяют существующие метрики Strands Evals — Cases, Experiments и Evaluators. Если Evaluators отвечают на вопрос «насколько хорошо агент справился?», то Detectors отвечают на вопрос «почему он ошибся и что исправить?». Интеграция в пайплайн оценки позволяет запускать диагностику автоматически на каждом тестовом прогоне, а не только при ручном расследовании инцидентов. Источником трассировок может служить как локальный JSON-файл с OpenTelemetry-данными, так и Amazon CloudWatch через CloudWatchProvider — для этого нужны права logs:StartQuery и logs:GetQueryResults.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Strands Evals SDK: автоматическая диагностика сбоев ИИ-агентов в продакшне

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений