Команда AWS опубликовала на GitHub Nova Sonic Test Harness — open-source фреймворк для автоматизированного тестирования голосовых агентов, построенных на базе модели Amazon Nova Sonic. Он предназначен для замены ручного тестирования, при котором разработчикам приходилось физически говорить с агентом и слушать ответы. Это медленно, непоследовательно и не масштабируется.

Голосовые агенты отличаются от текстовых чат-ботов: они используют двунаправленную потоковую передачу аудио и текста, отвечают недетерминированно (один и тот же запрос даёт разную формулировку), поддерживают контекст на протяжении нескольких раундов и могут одновременно генерировать аудио и текст, которые иногда расходятся — например, текст говорит «3:00 PM», а аудио — «3:30 PM». Последнее явление называется audio hallucination и незаметно при анализе только транскриптов. Кроме того, сессии ограничены по времени (около 8 минут), поэтому длинные тесты требуют переподключения и воспроизведения истории.

MetricTierWhat it checks
Goal AchievementCriticalDid the conversation accomplish what the user wanted?
Response AccuracyCriticalWere facts, numbers, and claims correct?
Tool UsageImportantWere the right tools called with correct parameters?
Conversation FlowImportantDid it sound like a natural conversation?
System Prompt ComplianceImportantDid the agent stay in character?
Voice FormattingAdvisoryWould the response sound natural when spoken aloud?

Nova Sonic Test Harness решает все эти проблемы. Тестовый сценарий описывается в JSON: задаётся системный промпт агента, голос (например, tiffany), доступные инструменты, промпт пользователя-симулятора, максимальное количество раундов (обычно до 8), а также критерии оценки (достижение цели, точность ответов, использование инструментов, поток беседы). После запуска фреймворк симулирует диалог от имени пользователя (с помощью другой LLM, например Claude Haiku), передаёт реплики Nova Sonic и собирает полную запись. Затем LLM-судья (LLM-as-judge) оценивает результат по заданным аспектам и формирует отчёт.

Фреймворк симулирует многошаговые диалоги, оценивает ответы через LLM-as-judge и обнаруживает расхождения между аудио и текстом (audio hallucinations).

AWS представила Nova Sonic Test Harness
· Источник: AWS Machine Learning Blog

Фреймворк особенно полезен на этапе итерации системных промптов и конфигураций инструментов. Каждое изменение требует повторного тестирования десятков сценариев — вместо дней ручной работы теперь можно запустить автоматический прогон. AWS подчёркивает, что Nova Sonic Test Harness не требует микрофона: всё взаимодействие происходит через API в виртуальной среде.

Инструмент распространяется по лицензии Apache 2.0. Исходный код и документация доступны на GitHub. Это не единственное решение в этой области, но оно тесно интегрировано с экосистемой AWS и Amazon Nova Sonic, что упрощает внедрение для существующих клиентов облака.