Голосовой агент Loka на Amazon Nova 2 Sonic: скорость, точность и низкая стоимость

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·4 часа назад·2 минЛабораторииКод

Loka разработала голосового агента на базе Amazon Nova 2 Sonic, который обрабатывает аудиопоток напрямую, минуя традиционный конвейер STT-LLM-TTS. Решение показало 87 баллов по шкале речевого понимания Big Bench Audio, время первого аудио 1,39 секунды и стоимость $0,27 за час входного аудио.

Кратко

—Loka создала голосового агента на Amazon Nova 2 Sonic для обработки аудио без преобразования в текст.
—На бенчмарке Big Bench Audio модель набрала 87 баллов, опередив GPT Realtime (83) и Gemini 2.5 Flash (71).
—Время первого аудио составило 1,39 секунды, что позволяет естественно прерывать агента.
—Стоимость обработки — $0,27 за час аудио, ниже аналогов.
—Автоматическая оценка показала улучшение по всем пяти критериям по сравнению с предыдущей версией.

Видео по теме

Видео по теме · Источник: AWS Machine Learning Blog

Глоссарий · 6 терминов▾

native speech-to-speech: Модель, обрабатывающая аудиосигнал напрямую без преобразования в текст на промежуточных этапах.
Big Bench Audio: Бенчмарк для оценки способности моделей рассуждать на основе речевых сигналов, а не текста.
barge-in: Возможность пользователя прервать голосового ассистента без задержки, создающая естественный диалог.
LLM: Large Language Model — большая языковая модель, способная генерировать текст и понимать контекст.
STT: Speech-to-Text — технология преобразования речи в текст.
TTS: Text-to-Speech — технология преобразования текста в речь.

Компания Loka разработала голосового агента на основе Amazon Nova 2 Sonic — native speech-to-speech модели, которая обрабатывает аудиопоток без промежуточного преобразования в текст. Решение предназначено для сценариев, где важна естественность диалога, например в автосалонах. Проблема традиционных голосовых ассистентов — трёхэтапный пайплайн (распознавание речи, обработка текста в LLM, синтез речи), который вносит задержку в 3–5 секунд. Кроме того, при переводе звука в текст теряются тон, хезитация и интонация. Нативный аудиоподход устраняет эти потери, передавая акустические особенности напрямую.

Для оценки качества Loka использовала бенчмарк Big Bench Audio, измеряющий способность рассуждать на основе речевых сигналов. Amazon Nova 2 Sonic набрала 87 баллов, опередив GPT Realtime (83) и Gemini 2.5 Flash Native Audio (71). Время первого аудио составило 1,39 секунды — это позволяет реализовать естественное перебивание (barge-in), когда пользователь может прервать ассистента без задержки. Стоимость обработки — $0,27 за час входного аудио, что ниже как традиционных пайплайнов, так и других real-time моделей.

Модель	Speech reasoning (Big Bench Audio)
Amazon Nova 2 Sonic	87.0
GPT Realtime	83.0
Gemini 2.5 Flash Native Audio	71.0

Дополнительно Loka провела автоматическую оценку по пяти критериям с помощью LLM-судьи. Сравнение Amazon Nova Sonic и Amazon Nova 2 Sonic показало улучшение релевантности ответов (с 2,5 до 2,9), понимания намерений (с 2,9 до 3,0), полноты (с 1,8 до 2,5), естественности диалога (с 2,5 до 2,8) и общего балла (с 2,4 до 2,7). Таким образом, агент на Nova 2 Sonic не только быстрее и дешевле, но и эффективнее выполняет задачи клиентов.

На бенчмарке Big Bench Audio модель набрала 87 баллов, опередив GPT Realtime (83) и Gemini 2.5 Flash (71).

Speech reasoning scores comparison across models on Big Bench Audio benchmark · Источник: AWS Machine Learning Blog

Хотя Loka фокусируется на автомобильных дилерских центрах, описанная архитектура применима к любым голосовым интерфейсам, где важны низкая задержка, естественность и контроль затрат. Неопределённость остаётся в масштабировании на тысячи одновременных сессий и точной оценке качества в условиях реальной эксплуатации за пределами бенчмарков.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ