Gemini 3.1 Flash TTS стал новым ориентиром Google в синтезе речи: модель набрала 1 211 баллов по шкале Elo на платформе Artificial Analysis, обойдя ElevenLabs v3 по совокупному качеству и уступив лишь Inworld 1.5 Max. Модель построена на базе Gemini 3.1 Flash и доступна через Gemini API, Vertex AI для корпоративных клиентов и Google Vids для пользователей Workspace.
Главная техническая новинка — аудиотеги. Это текстовые команды, которые разработчик вставляет прямо в промпт, чтобы задать параметры звучания: темп, тон, стиль подачи, акцент. Раньше подобное управление требовало либо отдельных API-параметров, либо специализированных инструментов вроде SSML (Speech Synthesis Markup Language) — стандарта разметки, который поддерживают многие TTS-системы, но который считается громоздким в использовании. Аудиотеги упрощают этот процесс: разработчику не нужно переключаться между форматами, достаточно описать нужный стиль в тексте. Модель также поддерживает мультиспикерные диалоги — то есть может генерировать разговор нескольких персонажей с разными голосами в рамках одного запроса.
Структура тарификации разделена на два уровня. Бесплатный тариф открыт для всех через Google AI Studio, однако данные пользователей Google использует для дообучения модели. Платный тариф стоит $1 за миллион токенов текстового ввода и $20 за миллион токенов аудиовывода; при использовании пакетного режима цены снижаются вдвое — до $0,50 и $10 соответственно. На платном тарифе Google не использует данные для улучшения продуктов. По соотношению цены и качества Artificial Analysis выделяет Gemini 3.1 Flash TTS как одну из наиболее выгодных моделей в своём классе.
Аудиотеги — новый механизм управления речью через текстовые команды прямо в промпте.
Рынок TTS-сервисов активно развивается: ElevenLabs, Inworld, Microsoft Azure Speech и OpenAI TTS конкурируют за корпоративных клиентов, которым нужны озвучка контента, голосовые интерфейсы и автоматизация подкастов. Google входит в этот сегмент с позиции компании, у которой уже есть инфраструктура Vertex AI и аудитория Workspace — это снижает порог внедрения для существующих клиентов. Все аудиофайлы, сгенерированные моделью, автоматически получают водяной знак SynthID — технологию Google для маркировки ИИ-контента, которая встроена в вывод на уровне модели и не требует дополнительных действий от разработчика.


