Amazon Bedrock Guardrails представил InvokeGuardrailChecks API, предназначенный для применения отдельных проверок безопасности в любой точке цикла работы ИИ-агента. API не требует создания guardrail-ресурсов заранее — все проверки задаются непосредственно в запросе, что упрощает адаптацию под различные сценарии использования.

Традиционные генеративные ИИ-приложения обычно следуют простому шаблону: пользователь отправляет запрос, модель генерирует ответ, guardrail проверяет оба. ИИ-агенты работают иначе: они выполняют многошаговые циклы, включающие планирование, вызов инструментов и обработку результатов. Каждый шаг несёт свой риск: от инъекций промптов до утечки персональных данных. Применение отдельного guardrail-ресурса для каждого шага приводит к высоким операционным издержкам. Новый API решает эту проблему, позволяя применять нужные проверки в нужный момент без управления ресурсами.

SafeguardWhat it detectsScore type
Content filtersHarmful content across categories: HATE, VIOLENCE, SEXUAL, INSULTS, MISCONDUCTSeverity score (0–1) with discrete scores
Prompt attack detectionJailbreaks, prompt injection, and prompt leakage attemptsSeverity score (0–1) with discrete scores
Sensitive information filtersPII entities including email, phone, SSN, credit card numbers (31 entity types)Confidence score (0–1) with discrete scores

API работает в режиме detect-only, возвращая числовые оценки для каждой проверки. Разработчик может задать собственные пороги и определить действия: заблокировать, повторить, пропустить или залогировать. API использует структурированную схему сообщений с ролями system, user, assistant, что важно для точной оценки контекста в многошаговых диалогах. Кроме того, API устраняет необходимость в циклическом создании, вызове и удалении guardrail-ресурсов для каждого шага, что было бы непрактично при десятках итераций. Таким образом, InvokeGuardrailChecks API предоставляет гибкий и масштабируемый способ обеспечения безопасности агентных ИИ-приложений.

API работает в режиме detect-only, возвращая числовые оценки для каждой проверки.