Google выпустила Gemini 3.1 Flash TTS с поддержкой 70+ языков и управлением стилем речи

Gemini 3.1 Flash TTS получил рейтинг Elo 1 211 на платформе Artificial Analysis и обошёл ElevenLabs v3 по общему качеству. Ключевое нововведение — аудиотеги: текстовые команды, позволяющие разработчикам управлять темпом, тоном, стилем и акцентом синтезированной речи.

Gemini 3.1 Flash TTS стал новым ориентиром Google в синтезе речи: модель набрала 1 211 баллов по шкале Elo на платформе Artificial Analysis, обойдя ElevenLabs v3 по совокупному качеству и уступив лишь Inworld 1.5 Max. Модель построена на базе Gemini 3.1 Flash и доступна через Gemini API, Vertex AI для корпоративных клиентов и Google Vids для пользователей Workspace.

Главная техническая новинка — аудиотеги. Это текстовые команды, которые разработчик вставляет прямо в промпт, чтобы задать параметры звучания: темп, тон, стиль подачи, акцент. Раньше подобное управление требовало либо отдельных API-параметров, либо специализированных инструментов вроде SSML (Speech Synthesis Markup Language) — стандарта разметки, который поддерживают многие TTS-системы, но который считается громоздким в использовании. Аудиотеги упрощают этот процесс: разработчику не нужно переключаться между форматами, достаточно описать нужный стиль в тексте. Модель также поддерживает мультиспикерные диалоги — то есть может генерировать разговор нескольких персонажей с разными голосами в рамках одного запроса.

Структура тарификации разделена на два уровня. Бесплатный тариф открыт для всех через Google AI Studio, однако данные пользователей Google использует для дообучения модели. Платный тариф стоит $1 за миллион токенов текстового ввода и $20 за миллион токенов аудиовывода; при использовании пакетного режима цены снижаются вдвое — до $0,50 и $10 соответственно. На платном тарифе Google не использует данные для улучшения продуктов. По соотношению цены и качества Artificial Analysis выделяет Gemini 3.1 Flash TTS как одну из наиболее выгодных моделей в своём классе.

Аудиотеги — новый механизм управления речью через текстовые команды прямо в промпте.

Рынок TTS-сервисов активно развивается: ElevenLabs, Inworld, Microsoft Azure Speech и OpenAI TTS конкурируют за корпоративных клиентов, которым нужны озвучка контента, голосовые интерфейсы и автоматизация подкастов. Google входит в этот сегмент с позиции компании, у которой уже есть инфраструктура Vertex AI и аудитория Workspace — это снижает порог внедрения для существующих клиентов. Все аудиофайлы, сгенерированные моделью, автоматически получают водяной знак SynthID — технологию Google для маркировки ИИ-контента, которая встроена в вывод на уровне модели и не требует дополнительных действий от разработчика.

Google выпустила Gemini 3.1 Flash TTS с поддержкой 70+ языков и управлением стилем речи

Кратко

Читать дальше

Samsung и SK Hynix инвестируют $590 млрд в чипы для ИИ на фоне роста цен на память

NYT обвинила Microsoft в создании суперкомпьютера для нарушения авторских прав

Рыночная капитализация Micron приблизилась к Meta и Tesla на фоне дефицита памяти для ИИ