Amazon SageMaker ИИ и vLLM: двунаправленная потоковая передача для речевых приложений

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·20 мая·2 минЛабораторииКод

С ноября 2025 года Amazon SageMaker ИИ поддерживает двунаправленную потоковую передачу для реального времени вывода, что совместно с vLLM позволяет развернуть голосовых агентов и сервисы распознавания речи с низкой задержкой на управляемой инфраструктуре.

Кратко

—SageMaker ИИ запустил поддержку HTTP/2 двунаправленного стриминга на порту 8443, автоматически связывая клиента и контейнер через WebSocket.
—vLLM представил Realtime API на WebSocket, реализующий поточную транскрипцию с пониженной задержкой за счёт сегментированных CUDA-вычислений.
—Совместное решение позволяет развернуть модель Voxtral-Mini-4B-Realtime-2602 от Mistral ИИ для речевых приложений без необходимости строить собственную стриминговую инфраструктуру.

Глоссарий · 5 терминов▾

HTTP/2: Версия протокола HTTP, поддерживающая мультиплексирование и двунаправленные потоки, что позволяет одновременно отправлять и получать данные.
WebSocket: Протокол, обеспечивающий постоянное двустороннее соединение между клиентом и сервером через один TCP-сокет.
CUDA: Платформа параллельных вычислений NVIDIA, позволяющая использовать GPU для выполнения вычислительных задач.
ASR: Автоматическое распознавание речи (Automatic Speech Recognition) — технология преобразования звука речи в текст.
PCM16: Формат кодирования аудио с импульсно-кодовой модуляцией и разрядностью 16 бит.

Традиционный подход запрос-ответ требует загрузки полного аудиофайла до начала обработки, что вносит задержку, недопустимую для голосовых агентов, субтитров в реальном времени и аналитики контакт-центров. С ноября 2025 года Amazon SageMaker ИИ решает эту проблему с помощью двунаправленной потоковой передачи (bidirectional streaming) на основе HTTP/2.

Сервис автоматически связывает протокол HTTP/2 на стороне клиента с WebSocket внутри контейнера, избавляя разработчиков от необходимости реализовывать этот шлюз вручную. vLLM, в свою очередь, предоставляет Realtime API — нативный WebSocket-эндпоинт /v1/realtime, поддерживающий несколько моделей речи. Он применяет сегментированное исполнение CUDA-графов, снижая накладные расходы на запуск ядер GPU и тем самым уменьшая задержки на токен при потоковой транскрипции.

Компонент	Описание
Модель реального времени с эффективным GPU-сервингом	vLLM через Realtime API использует сегментированное исполнение CUDA-графов для снижения задержки.
Инфраструктура двунаправленного стриминга	SageMaker AI обеспечивает HTTP/2-соединение, автоматически преобразуя его в WebSocket на стороне контейнера.
Обработка и кодирование аудио	Клиент выполняет ресемплинг до 16 кГц PCM16, разбивку на сегменты и base64-кодирование.
Управление соединениями и отказоустойчивость	SageMaker AI поддерживает ping/pong, проверку здоровья и мониторинг через CloudWatch.

В основе примера лежит модель Voxtral-Mini-4B-Realtime-2602 от Mistral ИИ — компактная модель для распознавания речи, способная обрабатывать аудио порциями по мере поступления. Клиентское приложение выполняет ресемплинг аудио до 16 кГц, моно PCM16, разбивает на сегменты и передаёт в base64. SageMaker ИИ поддерживает постоянное подключение через ping/pong-кадры, мониторинг через CloudWatch и автоматическое восстановление соединений.

vLLM представил Realtime API на WebSocket, реализующий поточную транскрипцию с пониженной задержкой за счёт сегментированных CUDA-вычислений.

Architecture diagram showing the three-layer connection flow from client through SageMaker AI to the Docker container running vLLM · Источник: AWS Machine Learning Blog

Решение объединяет три слоя: клиент подключается к SageMaker ИИ на порту 8443 через HTTP/2, SageMaker ИИ транслирует данные в WebSocket контейнера с vLLM, а vLLM отдаёт транскрипцию обратно тем же путём. Готовый пример включает Docker-образ на основе Deep Learning Container от SageMaker, endpoint с Voxtral, Python-клиент для потоковой передачи файлов и Gradio-демо с микрофоном. Полный код доступен в GitHub-репозитории.

Для разработчиков это означает, что можно перейти от модели на Hugging Face к production-сервису реального времени без сборки собственной стриминговой инфраструктуры и управления GPU-серверами. vLLM остаётся open-source, сохраняя контроль над конфигурацией модели и квантованием.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Google Research открыла карту отражательной способности крыш для 50+ городов

Продолжить по разделам

Amazon SageMaker ИИ и vLLM: двунаправленная потоковая передача для речевых приложений

Кратко

Читать дальше

NVIDIA внедряет модель разделения выручки для доступа к ИИ-инфраструктуре

Amazon Bedrock в AWS GovCloud (US) получил OpenAI GPT OSS и NVIDIA Nemotron

Google Research открыла карту отражательной способности крыш для 50+ городов