Российская компания targetai, специализирующаяся на ИИ-ассистентах для клиентского сервиса, опубликовала подробный разбор того, как команда подходила к выбору собственного движка синтеза речи. До этого компания использовала сторонние сервисы — Яндекс SpeechKit, Salute Speech и 11Labs. Зависимость от внешних вендоров создавала риски по стоимости, контролю качества и гибкости под конкретных клиентов, что и стало поводом для разработки собственного решения под названием targetspeak.

TTS (text-to-speech) — это технология синтеза речи: система получает текст и генерирует аудио. Для голосового агента в телефонии требования к TTS принципиально отличаются от, например, озвучки аудиокниг. В офлайн-сценарии можно перегенерировать неудачный фрагмент и выбрать лучший вариант. В онлайн-режиме агент обязан начать говорить за единицы сотен миллисекунд — задержка в 2–3 секунды уже создаёт дискомфорт для абонента, а нестабильная задержка воспринимается ещё хуже.

КритерийПриоритетЧто проверяется
Просодия и отсутствие «металла»Must-haveИнтонации, ритм, паузы, вокальные артефакты
Фонетическое качествоMust-haveЧёткость, разборчивость, произношение
Поддержка онлайн-режимаMust-haveTime-to-first-audio, стабильность задержки, нагрузка
Корректность ударенийВажно, итерируемоПоддержка явной разметки ударения
Лёгкость добавления голосаВажно, итерируемоОбъём датасета, стоимость дообучения в GPU-часах
Клонирование голосаВажно, итерируемоКачество и стабильность zero-shot voice cloning

Команда зафиксировала шесть критериев оценки. Первый — поддержка онлайн-режима: time-to-first-audio, стабильность задержки (дисперсия важна не меньше медианы) и поведение под нагрузкой при параллельных звонках. Второй — фонетическое качество, включая произношение и ударения. Здесь отдельная проблема русского языка: многие мультиязычные open source модели не поддерживают явный символ ударения в разметке, из-за чего «за́мок» и «замо́к» превращаются в лотерею при каждом прогоне. Третий критерий — лёгкость добавления нового голоса: объём датасета для дообучения и стоимость в GPU-часах. Четвёртый — качество клонирования голоса, в том числе zero-shot voice cloning, когда новый голос создаётся из одного референсного аудиофайла без дообучения. Пятый — просодия и интонации: монотонность, механический ритм, отсутствие смысловых пауз и вокальных заполнителей вроде «эм…». Шестой — отсутствие «металлического» эффекта, характерного артефакта вокодерных архитектур прошлых поколений, который может проявляться в телефонном канале из-за кодеков и аудиокомпрессии даже у моделей, звучащих чисто в студийных условиях.

По приоритетам команда разделила критерии на два уровня. Must-have: человекоподобность (просодия плюс отсутствие «металла»), фонетическое качество и поддержка онлайн-режима. Итерируемые, но важные: корректность ударений, лёгкость добавления нового голоса и клонирование голоса. Логика прямая: агент, который не воспринимается как живой или работает с заметными задержками, не функционирует как продукт вне зависимости от других характеристик.

Для сравнения моделей команда собрала бенчмарк-датасет не на синтетических примерах, а на реальных проблемных репликах. Выбрали пять клиентов, которые явно жаловались на качество речи агентов, выгрузили аудио из истории диалогов и попросили аналитиков отобрать реплики, звучавшие хуже всего. Каждую реплику синтезировали каждым проверяемым движком минимум три раза — потому что инференс части моделей не идемпотентен: ошибка в ударении может не проявляться в каждом прогоне, и один тест даёт ложно-оптимистичную картину. Такой подход позволяет оценивать поведение модели именно на тех входных данных, которые уже вызывали проблемы в продакшене, а не в тепличных условиях.