Amazon Bedrock Guardrails представил InvokeGuardrailChecks API, предназначенный для применения отдельных проверок безопасности в любой точке цикла работы ИИ-агента. API не требует создания guardrail-ресурсов заранее — все проверки задаются непосредственно в запросе, что упрощает адаптацию под различные сценарии использования.
Традиционные генеративные ИИ-приложения обычно следуют простому шаблону: пользователь отправляет запрос, модель генерирует ответ, guardrail проверяет оба. ИИ-агенты работают иначе: они выполняют многошаговые циклы, включающие планирование, вызов инструментов и обработку результатов. Каждый шаг несёт свой риск: от инъекций промптов до утечки персональных данных. Применение отдельного guardrail-ресурса для каждого шага приводит к высоким операционным издержкам. Новый API решает эту проблему, позволяя применять нужные проверки в нужный момент без управления ресурсами.
| Safeguard | What it detects | Score type |
|---|---|---|
| Content filters | Harmful content across categories: HATE, VIOLENCE, SEXUAL, INSULTS, MISCONDUCT | Severity score (0–1) with discrete scores |
| Prompt attack detection | Jailbreaks, prompt injection, and prompt leakage attempts | Severity score (0–1) with discrete scores |
| Sensitive information filters | PII entities including email, phone, SSN, credit card numbers (31 entity types) | Confidence score (0–1) with discrete scores |
API работает в режиме detect-only, возвращая числовые оценки для каждой проверки. Разработчик может задать собственные пороги и определить действия: заблокировать, повторить, пропустить или залогировать. API использует структурированную схему сообщений с ролями system, user, assistant, что важно для точной оценки контекста в многошаговых диалогах. Кроме того, API устраняет необходимость в циклическом создании, вызове и удалении guardrail-ресурсов для каждого шага, что было бы непрактично при десятках итераций. Таким образом, InvokeGuardrailChecks API предоставляет гибкий и масштабируемый способ обеспечения безопасности агентных ИИ-приложений.
API работает в режиме detect-only, возвращая числовые оценки для каждой проверки.



