Создание мультитенантных ИИ-приложений требует решения нескольких сложных задач: обеспечение полной изоляции между клиентами, поддержка разных уровней обслуживания, точный учет затрат на каждого арендатора и мониторинг. Без этих механизмов возникает риск утечки данных, несоответствия качества обслуживания или неконтролируемого роста расходов. AWS опубликовала вторую часть серии статей, посвященную реализации таких систем с помощью Amazon Bedrock AgentCore.

Предложенная архитектура использует трехуровневую иерархию: Уровень (Tier) → Арендатор (Tenant) → Пользователь (User). Изоляция обеспечивается на каждом уровне через документы в базе знаний, память, доступ к моделям и учет затрат. Для примера взяты медицинские ИИ-ассистенты: базовый тариф для небольших клиник использует модель Mistral Ministral 3 8B Instruct, а премиум-тариф для больниц и специализированных центров — OpenAI GPT OSS 120B с продвинутыми возможностями рассуждений и доступом к веб-поиску.

КомпонентНазначение
Amazon CognitoАутентификация и хранение метаданных арендатора в JWT
Amazon API GatewayМаршрутизация запросов и тарифные лимиты
AWS LambdaИзвлечение контекста арендатора и вызов агента
AgentCore (Runtime, Memory, Identity, Gateway, Policy)Выполнение агента, управление состоянием, идентификация, инструменты, политики
Amazon S3Хранение документов в изолированных корзинах

Решение использует пул-модель, при которой арендаторы разделяют общую инфраструктуру, а изоляция достигается логическими механизмами — идентификаторами, политиками доступа и разделением данных. Такой подход максимизирует утилизацию ресурсов и упрощает эксплуатацию. Для управления доступом применяются Amazon Cognito (хранение метаданных арендатора в JWT), API Gateway (маршрутизация и тарифные лимиты) и AWS Lambda (извлечение контекста и вызов агента). Агенты используют компоненты AgentCore: Runtime, Memory, Identity, Gateway и Policy.

Разделение на тарифы Basic (Mistral Ministral 3B) и Premium (OpenAI GPT OSS 120B) с разными возможностями.

Общая инфраструктура, изолированные арендаторы
· Источник: AWS Machine Learning Blog

Ключевые преимущества — возможность точно отслеживать затраты на каждого арендатора и легко масштабировать систему. Поскольку пул-модель не требует выделенных ресурсов для каждого клиента, операционные расходы снижаются, а внедрение новых арендаторов упрощается. Архитектура подходит для SaaS-платформ, корпоративных решений и управляемых сервисов. Исходный код примера доступен на GitHub.