Amazon Bedrock Guardrails представил InvokeGuardrailChecks API для агентных ИИ

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·16 июн.·1 минЛабораторииКод

Amazon Bedrock Guardrails представил InvokeGuardrailChecks API, позволяющий применять отдельные проверки безопасности на любом этапе цикла работы ИИ-агента без создания ресурсов Guardrails. API возвращает числовые оценки и даёт разработчикам гибкость в настройке порогов и действий.

Кратко

—InvokeGuardrailChecks API не требует предварительного создания guardrail-ресурсов — проверки задаются напрямую в запросе.
—API работает в режиме detect-only, возвращая числовые оценки для каждой проверки.
—Подходит для многошаговых агентных ИИ-сценариев с разными рисками на каждом шаге.
—Устраняет операционные издержки цикла create-invoke-delete для каждого шага.
—Использует структурированную схему сообщений с ролями system, user, assistant.

Глоссарий · 4 термина▾

ИИ-агент: Программа, которая самостоятельно выполняет многошаговые задачи, используя инструменты и принимая решения на основе контекста.
Guardrail: Механизм безопасности, проверяющий входящий и исходящий контент на нежелательное содержимое и защищающий чувствительные данные.
Detect-only: Режим работы, при котором система только выявляет нарушения, но не блокирует и не изменяет контент; решение о действии принимает разработчик.
Инъекция промптов: Атака, при которой злоумышленник внедряет вредоносные инструкции в запрос модели, чтобы изменить её поведение.

Amazon Bedrock Guardrails представил InvokeGuardrailChecks API, предназначенный для применения отдельных проверок безопасности в любой точке цикла работы ИИ-агента. API не требует создания guardrail-ресурсов заранее — все проверки задаются непосредственно в запросе, что упрощает адаптацию под различные сценарии использования.

Традиционные генеративные ИИ-приложения обычно следуют простому шаблону: пользователь отправляет запрос, модель генерирует ответ, guardrail проверяет оба. ИИ-агенты работают иначе: они выполняют многошаговые циклы, включающие планирование, вызов инструментов и обработку результатов. Каждый шаг несёт свой риск: от инъекций промптов до утечки персональных данных. Применение отдельного guardrail-ресурса для каждого шага приводит к высоким операционным издержкам. Новый API решает эту проблему, позволяя применять нужные проверки в нужный момент без управления ресурсами.

Safeguard	What it detects	Score type
Content filters	Harmful content across categories: HATE, VIOLENCE, SEXUAL, INSULTS, MISCONDUCT	Severity score (0–1) with discrete scores
Prompt attack detection	Jailbreaks, prompt injection, and prompt leakage attempts	Severity score (0–1) with discrete scores
Sensitive information filters	PII entities including email, phone, SSN, credit card numbers (31 entity types)	Confidence score (0–1) with discrete scores

API работает в режиме detect-only, возвращая числовые оценки для каждой проверки. Разработчик может задать собственные пороги и определить действия: заблокировать, повторить, пропустить или залогировать. API использует структурированную схему сообщений с ролями system, user, assistant, что важно для точной оценки контекста в многошаговых диалогах. Кроме того, API устраняет необходимость в циклическом создании, вызове и удалении guardrail-ресурсов для каждого шага, что было бы непрактично при десятках итераций. Таким образом, InvokeGuardrailChecks API предоставляет гибкий и масштабируемый способ обеспечения безопасности агентных ИИ-приложений.

API работает в режиме detect-only, возвращая числовые оценки для каждой проверки.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Amazon Bedrock Guardrails представил InvokeGuardrailChecks API для агентных ИИ

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений