OpenAI добавила в API голосовые модели с переводом и транскрипцией в реальном времени

Подготовлено редакцией Malakhov AI

TechCrunch AI·7 мая·2 минИндустрия

OpenAI выпустила три новые голосовые модели для Realtime API: GPT-Realtime-2 на базе рассуждений уровня GPT-5, переводчик GPT-Realtime-Translate с поддержкой 70 входных языков и транскрибатор GPT-Realtime-Whisper. Обновление ориентировано на разработчиков, которые строят голосовые интерфейсы для бизнеса, образования и медиа.

Кратко

—GPT-Realtime-2 заменяет GPT-Realtime-1.5 и использует рассуждения уровня GPT-5 для сложных запросов
—GPT-Realtime-Translate поддерживает более 70 языков на вход и 13 языков на выход в режиме реального времени
—GPT-Realtime-Whisper обеспечивает живую транскрипцию речи в текст по ходу разговора
—Translate и Whisper тарифицируются поминутно, GPT-Realtime-2 — по потреблению токенов
—OpenAI встроила защитные механизмы: разговор прерывается при обнаружении нарушений политики контента

Глоссарий · 4 термина▾

Realtime API: Программный интерфейс OpenAI, позволяющий разработчикам встраивать голосовые модели в свои приложения с обработкой аудио в режиме реального времени.
Токен: Единица текста (примерно 0,75 слова), по количеству которых тарифицируется использование языковых моделей.
Транскрипция: Автоматическое преобразование устной речи в текст.
Guardrails: Встроенные ограничения в ИИ-системе, предотвращающие генерацию вредоносного или запрещённого контента.

OpenAI расширила Realtime API тремя голосовыми моделями, переведя голосовые интерфейсы из режима простого «вопрос — ответ» в сторону полноценных разговорных агентов, способных слушать, рассуждать, переводить и транскрибировать по ходу диалога.

Центральная новинка — GPT-Realtime-2, преемник GPT-Realtime-1.5. Ключевое отличие от предшественника — использование рассуждений уровня GPT-5: модель рассчитана на более сложные пользовательские запросы, а не только на короткие реплики. Это важно для сценариев, где голосовой агент должен не просто ответить на вопрос, но и выполнить многошаговую задачу — например, провести клиента через процедуру поддержки или собрать структурированную информацию в ходе интервью. Модель тарифицируется по потреблению токенов.

Модель	Назначение	Языки	Тарификация
GPT-Realtime-2	Голосовой агент с расширенными рассуждениями	—	По токенам
GPT-Realtime-Translate	Синхронный перевод в реальном времени	70+ вход / 13 выход	Поминутно
GPT-Realtime-Whisper	Живая транскрипция речи в текст	—	Поминутно

GPT-Realtime-Translate — инструмент синхронного перевода, который «не отстаёт» от темпа живого разговора. Модель понимает более 70 языков и выдаёт перевод на 13 языках. Такой охват делает её применимой на международных мероприятиях, в колл-центрах с многоязычной аудиторией и на образовательных платформах. Тарификация — поминутная.

GPT-Realtime-Translate поддерживает более 70 языков на вход и 13 языков на выход в режиме реального времени

Image Credits:Jakub Porzycki/NurPhoto / Getty Images · Источник: TechCrunch AI

Третья модель, GPT-Realtime-Whisper, обеспечивает живую транскрипцию: текст появляется по мере того, как произносятся слова, а не после завершения реплики. Название отсылает к оригинальной модели Whisper, которую OpenAI выпустила в 2022 году как open-source инструмент для распознавания речи. Realtime-версия развивает эту идею, добавляя потоковый режим работы прямо внутри API. Тарификация также поминутная.

Все три модели доступны через Realtime API. OpenAI позиционирует их прежде всего для корпоративных клиентов: клиентский сервис, образование, медиа, ивент-индустрия и платформы для авторов контента. Параллельно компания признаёт риски злоупотреблений — в частности, использования голосовых моделей для спама и мошенничества. В систему встроены триггеры, которые прерывают разговор при обнаружении нарушений политики допустимого контента.

На рынке голосовых API OpenAI конкурирует с Google (Gemini Live API), ElevenLabs и рядом специализированных стартапов. Интеграция рассуждений уровня GPT-5 в реалтайм-модель — шаг, который конкуренты пока публично не анонсировали, хотя Google активно развивает мультимодальные возможности Gemini в аналогичном направлении.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ