Российская компания targetai, специализирующаяся на ИИ-ассистентах для клиентского сервиса, опубликовала подробный разбор того, как команда подходила к выбору собственного движка синтеза речи. До этого компания использовала сторонние сервисы — Яндекс SpeechKit, Salute Speech и 11Labs. Зависимость от внешних вендоров создавала риски по стоимости, контролю качества и гибкости под конкретных клиентов, что и стало поводом для разработки собственного решения под названием targetspeak.
TTS (text-to-speech) — это технология синтеза речи: система получает текст и генерирует аудио. Для голосового агента в телефонии требования к TTS принципиально отличаются от, например, озвучки аудиокниг. В офлайн-сценарии можно перегенерировать неудачный фрагмент и выбрать лучший вариант. В онлайн-режиме агент обязан начать говорить за единицы сотен миллисекунд — задержка в 2–3 секунды уже создаёт дискомфорт для абонента, а нестабильная задержка воспринимается ещё хуже.
| Критерий | Приоритет | Что проверяется |
|---|---|---|
| Просодия и отсутствие «металла» | Must-have | Интонации, ритм, паузы, вокальные артефакты |
| Фонетическое качество | Must-have | Чёткость, разборчивость, произношение |
| Поддержка онлайн-режима | Must-have | Time-to-first-audio, стабильность задержки, нагрузка |
| Корректность ударений | Важно, итерируемо | Поддержка явной разметки ударения |
| Лёгкость добавления голоса | Важно, итерируемо | Объём датасета, стоимость дообучения в GPU-часах |
| Клонирование голоса | Важно, итерируемо | Качество и стабильность zero-shot voice cloning |
Команда зафиксировала шесть критериев оценки. Первый — поддержка онлайн-режима: time-to-first-audio, стабильность задержки (дисперсия важна не меньше медианы) и поведение под нагрузкой при параллельных звонках. Второй — фонетическое качество, включая произношение и ударения. Здесь отдельная проблема русского языка: многие мультиязычные open source модели не поддерживают явный символ ударения в разметке, из-за чего «за́мок» и «замо́к» превращаются в лотерею при каждом прогоне. Третий критерий — лёгкость добавления нового голоса: объём датасета для дообучения и стоимость в GPU-часах. Четвёртый — качество клонирования голоса, в том числе zero-shot voice cloning, когда новый голос создаётся из одного референсного аудиофайла без дообучения. Пятый — просодия и интонации: монотонность, механический ритм, отсутствие смысловых пауз и вокальных заполнителей вроде «эм…». Шестой — отсутствие «металлического» эффекта, характерного артефакта вокодерных архитектур прошлых поколений, который может проявляться в телефонном канале из-за кодеков и аудиокомпрессии даже у моделей, звучащих чисто в студийных условиях.
По приоритетам команда разделила критерии на два уровня. Must-have: человекоподобность (просодия плюс отсутствие «металла»), фонетическое качество и поддержка онлайн-режима. Итерируемые, но важные: корректность ударений, лёгкость добавления нового голоса и клонирование голоса. Логика прямая: агент, который не воспринимается как живой или работает с заметными задержками, не функционирует как продукт вне зависимости от других характеристик.
Для сравнения моделей команда собрала бенчмарк-датасет не на синтетических примерах, а на реальных проблемных репликах. Выбрали пять клиентов, которые явно жаловались на качество речи агентов, выгрузили аудио из истории диалогов и попросили аналитиков отобрать реплики, звучавшие хуже всего. Каждую реплику синтезировали каждым проверяемым движком минимум три раза — потому что инференс части моделей не идемпотентен: ошибка в ударении может не проявляться в каждом прогоне, и один тест даёт ложно-оптимистичную картину. Такой подход позволяет оценивать поведение модели именно на тех входных данных, которые уже вызывали проблемы в продакшене, а не в тепличных условиях.


