Как выбрать TTS-движок для голосового ИИ-агента: критерии команды targetai

Подготовлено редакцией Malakhov AI

Habr AI·20 часов назад·3 минРоссияКод

Команда targetai, разрабатывающая ИИ-ассистентов для клиентского сервиса, описала методику выбора собственного движка синтеза речи — после того как зависимость от Яндекс SpeechKit, Salute Speech и 11Labs стала восприниматься как операционный риск. Шесть критериев и бенчмарк на реальных «проблемных» репликах из продакшена.

Кратко

—Задержка до первого аудио (time-to-first-audio) для телефонии должна измеряться сотнями миллисекунд, а не секундами.
—Русскоязычные TTS страдают от неверных ударений: многие open source модели не поддерживают явную разметку ударения.
—Zero-shot voice cloning позволяет создать голос из одного аудиофайла без дообучения, но качество нестабильно.
—«Металлический» артефакт голоса может появляться не в студии, а в телефонном канале из-за кодеков и аудиокомпрессии.
—Бенчмарк строился на репликах, которые уже «болели» в реальных диалогах пяти клиентов, каждая синтезировалась минимум трижды.

Глоссарий · 7 терминов▾

TTS (text-to-speech): Технология синтеза речи: программная система, которая преобразует текст в звуковой сигнал.
Time-to-first-audio: Время от момента получения текста до начала воспроизведения первого звука — ключевая метрика отзывчивости голосового агента.
Zero-shot voice cloning: Метод создания нового голоса из одного короткого аудиофайла без дополнительного обучения модели.
Просодия: Совокупность характеристик речи — интонация, ритм, паузы, ударения — которые делают её похожей на живую человеческую речь.
Вокодер: Алгоритм, преобразующий параметры речи в аудиосигнал; старые вокодерные архитектуры давали характерный «металлический» оттенок голоса.
Инференс: Процесс работы обученной нейросети на новых данных — в данном случае генерация аудио из текста.
Идемпотентность: Свойство системы давать одинаковый результат при одинаковых входных данных; неидемпотентный инференс означает, что одна и та же фраза может синтезироваться по-разному при каждом запуске.

Российская компания targetai, специализирующаяся на ИИ-ассистентах для клиентского сервиса, опубликовала подробный разбор того, как команда подходила к выбору собственного движка синтеза речи. До этого компания использовала сторонние сервисы — Яндекс SpeechKit, Salute Speech и 11Labs. Зависимость от внешних вендоров создавала риски по стоимости, контролю качества и гибкости под конкретных клиентов, что и стало поводом для разработки собственного решения под названием targetspeak.

TTS (text-to-speech) — это технология синтеза речи: система получает текст и генерирует аудио. Для голосового агента в телефонии требования к TTS принципиально отличаются от, например, озвучки аудиокниг. В офлайн-сценарии можно перегенерировать неудачный фрагмент и выбрать лучший вариант. В онлайн-режиме агент обязан начать говорить за единицы сотен миллисекунд — задержка в 2–3 секунды уже создаёт дискомфорт для абонента, а нестабильная задержка воспринимается ещё хуже.

Критерий	Приоритет	Что проверяется
Просодия и отсутствие «металла»	Must-have	Интонации, ритм, паузы, вокальные артефакты
Фонетическое качество	Must-have	Чёткость, разборчивость, произношение
Поддержка онлайн-режима	Must-have	Time-to-first-audio, стабильность задержки, нагрузка
Корректность ударений	Важно, итерируемо	Поддержка явной разметки ударения
Лёгкость добавления голоса	Важно, итерируемо	Объём датасета, стоимость дообучения в GPU-часах
Клонирование голоса	Важно, итерируемо	Качество и стабильность zero-shot voice cloning

Команда зафиксировала шесть критериев оценки. Первый — поддержка онлайн-режима: time-to-first-audio, стабильность задержки (дисперсия важна не меньше медианы) и поведение под нагрузкой при параллельных звонках. Второй — фонетическое качество, включая произношение и ударения. Здесь отдельная проблема русского языка: многие мультиязычные open source модели не поддерживают явный символ ударения в разметке, из-за чего «за́мок» и «замо́к» превращаются в лотерею при каждом прогоне. Третий критерий — лёгкость добавления нового голоса: объём датасета для дообучения и стоимость в GPU-часах. Четвёртый — качество клонирования голоса, в том числе zero-shot voice cloning, когда новый голос создаётся из одного референсного аудиофайла без дообучения. Пятый — просодия и интонации: монотонность, механический ритм, отсутствие смысловых пауз и вокальных заполнителей вроде «эм…». Шестой — отсутствие «металлического» эффекта, характерного артефакта вокодерных архитектур прошлых поколений, который может проявляться в телефонном канале из-за кодеков и аудиокомпрессии даже у моделей, звучащих чисто в студийных условиях.

По приоритетам команда разделила критерии на два уровня. Must-have: человекоподобность (просодия плюс отсутствие «металла»), фонетическое качество и поддержка онлайн-режима. Итерируемые, но важные: корректность ударений, лёгкость добавления нового голоса и клонирование голоса. Логика прямая: агент, который не воспринимается как живой или работает с заметными задержками, не функционирует как продукт вне зависимости от других характеристик.

Для сравнения моделей команда собрала бенчмарк-датасет не на синтетических примерах, а на реальных проблемных репликах. Выбрали пять клиентов, которые явно жаловались на качество речи агентов, выгрузили аудио из истории диалогов и попросили аналитиков отобрать реплики, звучавшие хуже всего. Каждую реплику синтезировали каждым проверяемым движком минимум три раза — потому что инференс части моделей не идемпотентен: ошибка в ударении может не проявляться в каждом прогоне, и один тест даёт ложно-оптимистичную картину. Такой подход позволяет оценивать поведение модели именно на тех входных данных, которые уже вызывали проблемы в продакшене, а не в тепличных условиях.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

AWS представила Nova Sonic Test Harness

Продолжить по разделам

Как выбрать TTS-движок для голосового ИИ-агента: критерии команды targetai

Кратко

Читать дальше

Как читать одну строку файла вместо всего содержимого в Claude Code

ЦОД к 2030 году будут потреблять воды больше, чем всё человечество — доклад ООН

AWS представила Nova Sonic Test Harness