AWS представила Nova Sonic Test Harness

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·8 июн.·2 минЛабораторииКод

Команда AWS опубликовала Nova Sonic Test Harness — open-source инструмент, автоматизирующий тестирование голосовых агентов на базе одноимённой речевой модели. Фреймворк использует симуляцию диалогов и LLM-оценку, заменяя ручное прослушивание и ускоряя итерации по настройке системных промптов и инструментов.

Кратко

—Nova Sonic Test Harness — open-source фреймворк от AWS для автоматизации тестирования голосовых агентов.
—Фреймворк симулирует многошаговые диалоги, оценивает ответы через LLM-as-judge и обнаруживает расхождения между аудио и текстом (audio hallucinations).
—Инструмент решает проблемы недетерминированных ответов, двунаправленной потоковой передачи и тайм-аутов соединений (около 8 минут).
—Тестовые сценарии описываются в JSON, запуск полностью автоматический, без микрофона.
—Пользователь может задать аспекты оценки: достижение цели, точность ответов, использование инструментов, поток беседы.

Глоссарий · 3 термина▾

LLM-as-judge: Метод оценки качества ответов языковой модели с помощью другой, более мощной модели, выступающей в роли судьи.
audio hallucinations: Расхождения между текстовым и аудиовыходом речевой модели, когда произнесённое слово отличается от записанного в транскрипте.
speech-to-speech model: Модель, которая принимает на вход речь и сразу генерирует речь, минуя промежуточный текст, что позволяет передавать интонации и эмоции.

Команда AWS опубликовала на GitHub Nova Sonic Test Harness — open-source фреймворк для автоматизированного тестирования голосовых агентов, построенных на базе модели Amazon Nova Sonic. Он предназначен для замены ручного тестирования, при котором разработчикам приходилось физически говорить с агентом и слушать ответы. Это медленно, непоследовательно и не масштабируется.

Голосовые агенты отличаются от текстовых чат-ботов: они используют двунаправленную потоковую передачу аудио и текста, отвечают недетерминированно (один и тот же запрос даёт разную формулировку), поддерживают контекст на протяжении нескольких раундов и могут одновременно генерировать аудио и текст, которые иногда расходятся — например, текст говорит «3:00 PM», а аудио — «3:30 PM». Последнее явление называется audio hallucination и незаметно при анализе только транскриптов. Кроме того, сессии ограничены по времени (около 8 минут), поэтому длинные тесты требуют переподключения и воспроизведения истории.

Metric	Tier	What it checks
Goal Achievement	Critical	Did the conversation accomplish what the user wanted?
Response Accuracy	Critical	Were facts, numbers, and claims correct?
Tool Usage	Important	Were the right tools called with correct parameters?
Conversation Flow	Important	Did it sound like a natural conversation?
System Prompt Compliance	Important	Did the agent stay in character?
Voice Formatting	Advisory	Would the response sound natural when spoken aloud?

Nova Sonic Test Harness решает все эти проблемы. Тестовый сценарий описывается в JSON: задаётся системный промпт агента, голос (например, tiffany), доступные инструменты, промпт пользователя-симулятора, максимальное количество раундов (обычно до 8), а также критерии оценки (достижение цели, точность ответов, использование инструментов, поток беседы). После запуска фреймворк симулирует диалог от имени пользователя (с помощью другой LLM, например Claude Haiku), передаёт реплики Nova Sonic и собирает полную запись. Затем LLM-судья (LLM-as-judge) оценивает результат по заданным аспектам и формирует отчёт.

Фреймворк симулирует многошаговые диалоги, оценивает ответы через LLM-as-judge и обнаруживает расхождения между аудио и текстом (audio hallucinations).

Фреймворк особенно полезен на этапе итерации системных промптов и конфигураций инструментов. Каждое изменение требует повторного тестирования десятков сценариев — вместо дней ручной работы теперь можно запустить автоматический прогон. AWS подчёркивает, что Nova Sonic Test Harness не требует микрофона: всё взаимодействие происходит через API в виртуальной среде.

Инструмент распространяется по лицензии Apache 2.0. Исходный код и документация доступны на GitHub. Это не единственное решение в этой области, но оно тесно интегрировано с экосистемой AWS и Amazon Nova Sonic, что упрощает внедрение для существующих клиентов облака.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

AWS представила Nova Sonic Test Harness

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений