Традиционный подход запрос-ответ требует загрузки полного аудиофайла до начала обработки, что вносит задержку, недопустимую для голосовых агентов, субтитров в реальном времени и аналитики контакт-центров. С ноября 2025 года Amazon SageMaker ИИ решает эту проблему с помощью двунаправленной потоковой передачи (bidirectional streaming) на основе HTTP/2.
Сервис автоматически связывает протокол HTTP/2 на стороне клиента с WebSocket внутри контейнера, избавляя разработчиков от необходимости реализовывать этот шлюз вручную. vLLM, в свою очередь, предоставляет Realtime API — нативный WebSocket-эндпоинт /v1/realtime, поддерживающий несколько моделей речи. Он применяет сегментированное исполнение CUDA-графов, снижая накладные расходы на запуск ядер GPU и тем самым уменьшая задержки на токен при потоковой транскрипции.
| Компонент | Описание |
|---|---|
| Модель реального времени с эффективным GPU-сервингом | vLLM через Realtime API использует сегментированное исполнение CUDA-графов для снижения задержки. |
| Инфраструктура двунаправленного стриминга | SageMaker AI обеспечивает HTTP/2-соединение, автоматически преобразуя его в WebSocket на стороне контейнера. |
| Обработка и кодирование аудио | Клиент выполняет ресемплинг до 16 кГц PCM16, разбивку на сегменты и base64-кодирование. |
| Управление соединениями и отказоустойчивость | SageMaker AI поддерживает ping/pong, проверку здоровья и мониторинг через CloudWatch. |
В основе примера лежит модель Voxtral-Mini-4B-Realtime-2602 от Mistral ИИ — компактная модель для распознавания речи, способная обрабатывать аудио порциями по мере поступления. Клиентское приложение выполняет ресемплинг аудио до 16 кГц, моно PCM16, разбивает на сегменты и передаёт в base64. SageMaker ИИ поддерживает постоянное подключение через ping/pong-кадры, мониторинг через CloudWatch и автоматическое восстановление соединений.
vLLM представил Realtime API на WebSocket, реализующий поточную транскрипцию с пониженной задержкой за счёт сегментированных CUDA-вычислений.

Решение объединяет три слоя: клиент подключается к SageMaker ИИ на порту 8443 через HTTP/2, SageMaker ИИ транслирует данные в WebSocket контейнера с vLLM, а vLLM отдаёт транскрипцию обратно тем же путём. Готовый пример включает Docker-образ на основе Deep Learning Container от SageMaker, endpoint с Voxtral, Python-клиент для потоковой передачи файлов и Gradio-демо с микрофоном. Полный код доступен в GitHub-репозитории.
Для разработчиков это означает, что можно перейти от модели на Hugging Face к production-сервису реального времени без сборки собственной стриминговой инфраструктуры и управления GPU-серверами. vLLM остаётся open-source, сохраняя контроль над конфигурацией модели и квантованием.



