AWS объединила Nova Sonic и WebRTC для голосовых приложений с низкой задержкой

AWS Machine Learning Blog·вчера·3 минЛабораторииКод

Amazon Nova Sonic теперь работает в связке с Kinesis Video Streams WebRTC — AWS опубликовала архитектуру и open-source примеры для создания голосовых приложений с двусторонней передачей аудио в реальном времени. Решение ориентировано на сценарии, где критична задержка: умный дом, подключённые автомобили, промышленные роботы.

Кратко

—Nova Sonic — единая speech-to-speech модель: распознавание, обработка и синтез речи в одном контуре без раздельных модулей.
—WebRTC обеспечивает наименьшую задержку среди протоколов стриминга и адаптирует битрейт при нестабильной сети.
—VAD-слой на стороне сервера подавляет шум и снижает количество аудиотокенов, передаваемых в Nova Sonic.
—Аудиоданные перед отправкой в API конвертируются: стерео → моно, 48 кГц → 16 кГц, Int16 → Float32.
—AWS предоставляет готовые open-source примеры: умный дом и подключённый автомобиль — как отправные точки для разработки.

Глоссарий · 7 терминов▾

WebRTC: Открытый протокол для передачи аудио и видео напрямую между браузерами или устройствами без промежуточных серверов, с минимальной задержкой.
Speech-to-speech: Архитектура, при которой модель принимает аудио на входе и возвращает аудио на выходе, не преобразуя речь в текст как промежуточный шаг.
VAD (Voice Activity Detection): Алгоритм, определяющий, содержит ли аудиофрагмент человеческую речь или это фоновый шум, чтобы не передавать лишние данные в модель.
SDP (Session Description Protocol): Формат описания параметров медиасессии — кодеков, адресов, портов — которым обмениваются стороны при установке WebRTC-соединения.
ICE (Interactive Connectivity Establishment): Механизм WebRTC для поиска оптимального сетевого пути между двумя устройствами, в том числе через NAT и файрволы.
RAG (Retrieval Augmented Generation): Подход, при котором языковая модель перед генерацией ответа извлекает релевантные фрагменты из внешней базы знаний.
MCP (Model Context Protocol): Протокол для подключения языковых моделей к внешним инструментам и источникам данных в стандартизированном формате.

Традиционные голосовые пайплайны строятся из трёх независимых блоков: распознавание речи (ASR), языковая модель и синтез речи (TTS). Каждый переход между блоками добавляет задержку и точку отказа. Amazon Nova Sonic устроена иначе — это единая speech-to-speech архитектура, которая принимает аудио и возвращает аудио, минуя промежуточные текстовые представления. Это сокращает сквозную задержку и позволяет модели учитывать интонацию и паузы собеседника, а не только транскрипт.

Для транспортного уровня AWS выбрала WebRTC — открытый протокол, изначально разработанный для браузерных видеозвонков. Среди протоколов потокового вещания WebRTC обеспечивает наименьшую задержку: в отличие от HLS или MPEG-DASH, которые работают через HTTP-сегменты с буферизацией в несколько секунд, WebRTC устанавливает прямое peer-to-peer соединение. Встроенные механизмы — адаптивный битрейт (ABR), коррекция ошибок (FEC) и управление джиттер-буфером — автоматически компенсируют нестабильность сети без участия разработчика. Протокол поддерживается нативно в Chrome, Firefox, Safari, Edge, Android и iOS.

Протокол	Задержка	Адаптивный битрейт	Нативная поддержка браузеров
WebRTC	минимальная	Да (встроенный ABR)	Chrome, Firefox, Safari, Edge, Android, iOS
HLS	высокая (сегментная буферизация)	Да	Широкая
MPEG-DASH	высокая (сегментная буферизация)	Да	Широкая
RTMP	средняя	Нет	Ограниченная (требует плагин)
RTSP	низкая	Нет	Ограниченная

В предложенной AWS архитектуре клиентское приложение на React устанавливает WebRTC-соединение через сигнальный канал Kinesis Video Streams. После обмена SDP offer/answer и ICE-кандидатами поднимается двунаправленное peer-соединение. Медиаканал передаёт аудио и видео в формате SRTP, дата-канал — текстовые сообщения и управляющие команды. Оба канала шифруются через DTLS. На серверной стороне Python-приложение через HTTP/2 соединяется с Nova Sonic для двунаправленного стриминга.

WebRTC обеспечивает наименьшую задержку среди протоколов стриминга и адаптирует битрейт при нестабильной сети.

Отдельного внимания заслуживает слой Voice Activity Detection (VAD), реализованный на сервере с помощью библиотеки WebRTCVAD. Она построена на модели Гауссовой смеси (GMM) и работает на уровне отдельных WebRTC-фреймов — это позволяет отсекать фоновый шум до того, как аудио попадёт в Nova Sonic, снижая расход токенов и повышая точность распознавания. Авторы также упоминают Silero VAD и Pyannote VAD как альтернативы.

Перед передачей аудио в API выполняется форматная адаптация: из интерливингового стерео извлекается один канал, частота дискретизации понижается с 48 кГц до 16 кГц (требование Nova Sonic API), а значения сэмплов конвертируются из Int16 в Float32. Реализация WebRTC на стороне сервера построена на Python-библиотеке aiortc.

Nova Sonic поддерживает асинхронный вызов инструментов — модель может обращаться к MCP-серверам, агентам на базе Strands и RAG-системам прямо в ходе разговора. Это открывает сценарии, где голосовой агент не ограничен предобученными знаниями, а может запрашивать актуальные данные: статус заказа, показания датчиков, корпоративную базу знаний.

AWS приводит четыре целевых сценария: подключённые автомобили с функцией перевода в реальном времени, умные фабрики с голосовым управлением контролем качества, роботизированные системы клиентского сервиса и умный дом с многоязычным управлением. Для двух последних на GitHub опубликованы готовые примеры кода, которые можно использовать как отправную точку. Оба сервиса — Nova Sonic и Kinesis Video Streams — полностью управляются AWS и масштабируются автоматически.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме