Базы знаний Amazon Bedrock позволяют подключать к языковым моделям корпоративные документы из S3, чтобы модель отвечала на основе актуальных внутренних данных, а не только обучающей выборки. Проблема в том, что каждое изменение файла — загрузка, правка, удаление — требует отдельного запуска синхронизации вручную. В командах, где документы обновляются постоянно, это превращается в операционную нагрузку.

AWS опубликовал подробную архитектуру автоматического решения, которое отслеживает события S3 и самостоятельно запускает ingestion-задания. Ключевое ограничение, вокруг которого выстроена вся схема, — квоты Bedrock: не более 5 одновременных заданий на AWS-аккаунт, 1 задание на knowledge base и 1 задание на источник данных. API StartIngestionJob дополнительно ограничен скоростью 0,1 запроса в секунду, то есть один запрос каждые 10 секунд. Без координации параллельные загрузки файлов командой просто встают в очередь с ошибками.

ОграничениеЗначение
Одновременных ingestion-заданий на аккаунт5
Заданий на одну knowledge base1
Заданий на один источник данных1
Скорость API StartIngestionJob0,1 запроса/сек (1 запрос каждые 10 сек)

Архитектура состоит из пяти компонентов. Amazon EventBridge перехватывает события S3 в реальном времени. Lambda-функция-обработчик извлекает метаданные изменения — путь к файлу, тип события, временну́ю метку — и записывает их в DynamoDB для аудита. Одновременно та же функция отправляет сообщение в Amazon SQS. Очередь SQS выступает буфером: она принудительно соблюдает паузу между запросами и гарантирует, что ни одно изменение не потеряется при пиковой нагрузке. Вторая Lambda читает из очереди по одному сообщению и запускает исполнение AWS Step Functions, передавая идентификаторы knowledge base и источника данных. Step Functions оркестрирует сам процесс синхронизации, обрабатывает ошибки и повторные попытки.

Решение полностью serverless: не требует управления инфраструктурой, развёртывается через AWS SAM.

AWS architecture diagram showing an automated document synchronization workflow using AWS Step Functions, Lambda, Amazon S3, EventBridge, SQS, Amazon Bedrock, DynamoDB, CloudWatch, and SNS for event-driven knowledge base ingestion and monit
AWS architecture diagram showing an automated document synchronization workflow using AWS Step Functions, Lambda, Amazon S3, EventBridge, SQS, Amazon Bedrock, DynamoDB, CloudWatch, and SNS for event-driven knowledge base ingestion and monit · Источник: AWS Machine Learning Blog

Всё решение разворачивается через AWS SAM — фреймворк для описания serverless-приложений в виде кода. Это означает, что инфраструктура воспроизводима и не требует ручной настройки консоли. Подход особенно актуален для сценариев поддержки клиентов, где knowledge base должна отражать актуальные инструкции и политики, и для мультипользовательских сред, где несколько команд загружают документы в течение рабочего дня.

Архитектуру на практике применила Deloitte — в связке с Amazon EKS и vCluster для тестовой инфраструктуры. Это показывает, что схема масштабируется за пределы простого документооборота и встраивается в более сложные enterprise-пайплайны. Квоты Bedrock привязаны к конкретному AWS-региону и могут меняться, поэтому AWS рекомендует сверяться с актуальной документацией перед развёртыванием.