Пять паттернов отказоустойчивости LLM от Amazon Bedrock: от CRIS до LLM-шлюза

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·6 часов назад·2 минЛабораторииКод

Amazon Bedrock предлагает пять паттернов отказоустойчивости для LLM-инференса, начиная с кросс-регионального вывода (CRIS) и заканчивая оркестрацией через LLM-шлюз.

Кратко

—Amazon Bedrock предлагает пять паттернов отказоустойчивости для LLM-инференса.
—Первый паттерн — кросс-региональный вывод (CRIS) — автоматически распределяет запросы по регионам.
—Архитектура учитывает четыре измерения: доступность, время ответа, стоимость и пропускную способность.
—Паттерны реализованы в открытом репозитории GitHub.
—Подход «crawl, walk, run» позволяет внедрять паттерны поэтапно.

Глоссарий · 4 термина▾

LLM (Large Language Model): Большая языковая модель — нейросеть, способная генерировать и анализировать текст.
Cross-Region Inference (CRIS): Кросс-региональный вывод — функция Amazon Bedrock, автоматически маршрутизирующая запросы к LLM в оптимальный регион AWS.
Time to First Token (TTFT): Время до первого токена — метрика задержки, измеряющая, как быстро модель начинает выдавать ответ.
Time to Last Token (TTLT): Время до последнего токена — метрика, показывающая полное время генерации ответа.

С ростом числа генеративных ИИ-приложений в промышленной эксплуатации вопросы отказоустойчивости инференса больших языковых моделей (LLM) выходят на первый план. В блоге AWS Machine Learning Blog описаны пять паттернов отказоустойчивости для инференса LLM на базе Amazon Bedrock — от использования встроенного кросс-регионального вывода до оркестрации через LLM-шлюз. Паттерны охватывают четыре ключевых измерения архитектуры: доступность, время ответа, стоимость и пропускную способность. Эти параметры взаимосвязаны: например, маршрутизация между регионами повышает доступность и пропускную способность, но может увеличить задержку.

Первый и базовый паттерн — Amazon Bedrock cross-Region inference (CRIS). Это нативная функция, которая автоматически направляет запросы из исходного региона в оптимальный на основе текущей доступности, задержки и нагрузки. CRIS позволяет увеличить совокупную пропускную способность, снизить риск исчерпания квот и сохранить данные в пределах географической зоны (например, только регионы США или ЕС). Для сценариев, допускающих бо́льшую задержку, доступны глобальные профили, маршрутизирующие запросы по всем коммерческим регионам. В демонстрационном примере при отправке 10 запросов к Amazon Bedrock через CRIS распределение оказалось следующим:

Регион	Количество вызовов	Доля
us-east-1	1	10%
us-east-2	7	70%
us-west-2	2	20%

| Регион | Количество вызовов | Доля | |--------|-------------------|------| | us-east-1 | 1 | 10% | | us-east-2 | 7 | 70% | | us-west-2 | 2 | 20% |

Первый паттерн — кросс-региональный вывод (CRIS) — автоматически распределяет запросы по регионам.

Architecture diagram showing Amazon Bedrock cross-Region inference. A request flows from a source Region through an API endpoint to a CRIS Inference Router, which routes to either Destination Region 1 (active, with API endpoint and model) o · Источник: AWS Machine Learning Blog

Остальные четыре паттерна развивают этот подход: от работы с квотами и изоляцией ресурсов до использования LLM-шлюза для мультимодельной оркестрации. Все примеры кода доступны в репозитории GitHub, что позволяет протестировать паттерны в собственной среде. Авторы предлагают поэтапный подход «crawl, walk, run» — внедрение паттернов по мере роста зрелости приложения. В будущем планируются публикации, посвящённые оптимизации времени ответа и стоимости. Важно: следование паттернам приводит к расходам на ресурсы AWS (Amazon Bedrock, CloudWatch). В репозитории приведены инструкции по очистке ресурсов.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ