Команда AWS опубликовала на GitHub Nova Sonic Test Harness — open-source фреймворк для автоматизированного тестирования голосовых агентов, построенных на базе модели Amazon Nova Sonic. Он предназначен для замены ручного тестирования, при котором разработчикам приходилось физически говорить с агентом и слушать ответы. Это медленно, непоследовательно и не масштабируется.
Голосовые агенты отличаются от текстовых чат-ботов: они используют двунаправленную потоковую передачу аудио и текста, отвечают недетерминированно (один и тот же запрос даёт разную формулировку), поддерживают контекст на протяжении нескольких раундов и могут одновременно генерировать аудио и текст, которые иногда расходятся — например, текст говорит «3:00 PM», а аудио — «3:30 PM». Последнее явление называется audio hallucination и незаметно при анализе только транскриптов. Кроме того, сессии ограничены по времени (около 8 минут), поэтому длинные тесты требуют переподключения и воспроизведения истории.
| Metric | Tier | What it checks |
|---|---|---|
| Goal Achievement | Critical | Did the conversation accomplish what the user wanted? |
| Response Accuracy | Critical | Were facts, numbers, and claims correct? |
| Tool Usage | Important | Were the right tools called with correct parameters? |
| Conversation Flow | Important | Did it sound like a natural conversation? |
| System Prompt Compliance | Important | Did the agent stay in character? |
| Voice Formatting | Advisory | Would the response sound natural when spoken aloud? |
Nova Sonic Test Harness решает все эти проблемы. Тестовый сценарий описывается в JSON: задаётся системный промпт агента, голос (например, tiffany), доступные инструменты, промпт пользователя-симулятора, максимальное количество раундов (обычно до 8), а также критерии оценки (достижение цели, точность ответов, использование инструментов, поток беседы). После запуска фреймворк симулирует диалог от имени пользователя (с помощью другой LLM, например Claude Haiku), передаёт реплики Nova Sonic и собирает полную запись. Затем LLM-судья (LLM-as-judge) оценивает результат по заданным аспектам и формирует отчёт.
Фреймворк симулирует многошаговые диалоги, оценивает ответы через LLM-as-judge и обнаруживает расхождения между аудио и текстом (audio hallucinations).

Фреймворк особенно полезен на этапе итерации системных промптов и конфигураций инструментов. Каждое изменение требует повторного тестирования десятков сценариев — вместо дней ручной работы теперь можно запустить автоматический прогон. AWS подчёркивает, что Nova Sonic Test Harness не требует микрофона: всё взаимодействие происходит через API в виртуальной среде.
Инструмент распространяется по лицензии Apache 2.0. Исходный код и документация доступны на GitHub. Это не единственное решение в этой области, но оно тесно интегрировано с экосистемой AWS и Amazon Nova Sonic, что упрощает внедрение для существующих клиентов облака.



