Традиционные голосовые пайплайны строятся из трёх независимых блоков: распознавание речи (ASR), языковая модель и синтез речи (TTS). Каждый переход между блоками добавляет задержку и точку отказа. Amazon Nova Sonic устроена иначе — это единая speech-to-speech архитектура, которая принимает аудио и возвращает аудио, минуя промежуточные текстовые представления. Это сокращает сквозную задержку и позволяет модели учитывать интонацию и паузы собеседника, а не только транскрипт.
Для транспортного уровня AWS выбрала WebRTC — открытый протокол, изначально разработанный для браузерных видеозвонков. Среди протоколов потокового вещания WebRTC обеспечивает наименьшую задержку: в отличие от HLS или MPEG-DASH, которые работают через HTTP-сегменты с буферизацией в несколько секунд, WebRTC устанавливает прямое peer-to-peer соединение. Встроенные механизмы — адаптивный битрейт (ABR), коррекция ошибок (FEC) и управление джиттер-буфером — автоматически компенсируют нестабильность сети без участия разработчика. Протокол поддерживается нативно в Chrome, Firefox, Safari, Edge, Android и iOS.
| Протокол | Задержка | Адаптивный битрейт | Нативная поддержка браузеров |
|---|---|---|---|
| WebRTC | минимальная | Да (встроенный ABR) | Chrome, Firefox, Safari, Edge, Android, iOS |
| HLS | высокая (сегментная буферизация) | Да | Широкая |
| MPEG-DASH | высокая (сегментная буферизация) | Да | Широкая |
| RTMP | средняя | Нет | Ограниченная (требует плагин) |
| RTSP | низкая | Нет | Ограниченная |
В предложенной AWS архитектуре клиентское приложение на React устанавливает WebRTC-соединение через сигнальный канал Kinesis Video Streams. После обмена SDP offer/answer и ICE-кандидатами поднимается двунаправленное peer-соединение. Медиаканал передаёт аудио и видео в формате SRTP, дата-канал — текстовые сообщения и управляющие команды. Оба канала шифруются через DTLS. На серверной стороне Python-приложение через HTTP/2 соединяется с Nova Sonic для двунаправленного стриминга.
WebRTC обеспечивает наименьшую задержку среди протоколов стриминга и адаптирует битрейт при нестабильной сети.

Отдельного внимания заслуживает слой Voice Activity Detection (VAD), реализованный на сервере с помощью библиотеки WebRTCVAD. Она построена на модели Гауссовой смеси (GMM) и работает на уровне отдельных WebRTC-фреймов — это позволяет отсекать фоновый шум до того, как аудио попадёт в Nova Sonic, снижая расход токенов и повышая точность распознавания. Авторы также упоминают Silero VAD и Pyannote VAD как альтернативы.
Перед передачей аудио в API выполняется форматная адаптация: из интерливингового стерео извлекается один канал, частота дискретизации понижается с 48 кГц до 16 кГц (требование Nova Sonic API), а значения сэмплов конвертируются из Int16 в Float32. Реализация WebRTC на стороне сервера построена на Python-библиотеке aiortc.
Nova Sonic поддерживает асинхронный вызов инструментов — модель может обращаться к MCP-серверам, агентам на базе Strands и RAG-системам прямо в ходе разговора. Это открывает сценарии, где голосовой агент не ограничен предобученными знаниями, а может запрашивать актуальные данные: статус заказа, показания датчиков, корпоративную базу знаний.
AWS приводит четыре целевых сценария: подключённые автомобили с функцией перевода в реальном времени, умные фабрики с голосовым управлением контролем качества, роботизированные системы клиентского сервиса и умный дом с многоязычным управлением. Для двух последних на GitHub опубликованы готовые примеры кода, которые можно использовать как отправную точку. Оба сервиса — Nova Sonic и Kinesis Video Streams — полностью управляются AWS и масштабируются автоматически.



