Традиционный подход запрос-ответ требует загрузки полного аудиофайла до начала обработки, что вносит задержку, недопустимую для голосовых агентов, субтитров в реальном времени и аналитики контакт-центров. С ноября 2025 года Amazon SageMaker ИИ решает эту проблему с помощью двунаправленной потоковой передачи (bidirectional streaming) на основе HTTP/2.

Сервис автоматически связывает протокол HTTP/2 на стороне клиента с WebSocket внутри контейнера, избавляя разработчиков от необходимости реализовывать этот шлюз вручную. vLLM, в свою очередь, предоставляет Realtime API — нативный WebSocket-эндпоинт /v1/realtime, поддерживающий несколько моделей речи. Он применяет сегментированное исполнение CUDA-графов, снижая накладные расходы на запуск ядер GPU и тем самым уменьшая задержки на токен при потоковой транскрипции.

КомпонентОписание
Модель реального времени с эффективным GPU-сервингомvLLM через Realtime API использует сегментированное исполнение CUDA-графов для снижения задержки.
Инфраструктура двунаправленного стримингаSageMaker AI обеспечивает HTTP/2-соединение, автоматически преобразуя его в WebSocket на стороне контейнера.
Обработка и кодирование аудиоКлиент выполняет ресемплинг до 16 кГц PCM16, разбивку на сегменты и base64-кодирование.
Управление соединениями и отказоустойчивостьSageMaker AI поддерживает ping/pong, проверку здоровья и мониторинг через CloudWatch.

В основе примера лежит модель Voxtral-Mini-4B-Realtime-2602 от Mistral ИИ — компактная модель для распознавания речи, способная обрабатывать аудио порциями по мере поступления. Клиентское приложение выполняет ресемплинг аудио до 16 кГц, моно PCM16, разбивает на сегменты и передаёт в base64. SageMaker ИИ поддерживает постоянное подключение через ping/pong-кадры, мониторинг через CloudWatch и автоматическое восстановление соединений.

vLLM представил Realtime API на WebSocket, реализующий поточную транскрипцию с пониженной задержкой за счёт сегментированных CUDA-вычислений.

Architecture diagram showing the three-layer connection flow from client through SageMaker AI to the Docker container running vLLM
Architecture diagram showing the three-layer connection flow from client through SageMaker AI to the Docker container running vLLM · Источник: AWS Machine Learning Blog

Решение объединяет три слоя: клиент подключается к SageMaker ИИ на порту 8443 через HTTP/2, SageMaker ИИ транслирует данные в WebSocket контейнера с vLLM, а vLLM отдаёт транскрипцию обратно тем же путём. Готовый пример включает Docker-образ на основе Deep Learning Container от SageMaker, endpoint с Voxtral, Python-клиент для потоковой передачи файлов и Gradio-демо с микрофоном. Полный код доступен в GitHub-репозитории.

Для разработчиков это означает, что можно перейти от модели на Hugging Face к production-сервису реального времени без сборки собственной стриминговой инфраструктуры и управления GPU-серверами. vLLM остаётся open-source, сохраняя контроль над конфигурацией модели и квантованием.