OpenAI расширила Realtime API тремя голосовыми моделями, переведя голосовые интерфейсы из режима простого «вопрос — ответ» в сторону полноценных разговорных агентов, способных слушать, рассуждать, переводить и транскрибировать по ходу диалога.

Центральная новинка — GPT-Realtime-2, преемник GPT-Realtime-1.5. Ключевое отличие от предшественника — использование рассуждений уровня GPT-5: модель рассчитана на более сложные пользовательские запросы, а не только на короткие реплики. Это важно для сценариев, где голосовой агент должен не просто ответить на вопрос, но и выполнить многошаговую задачу — например, провести клиента через процедуру поддержки или собрать структурированную информацию в ходе интервью. Модель тарифицируется по потреблению токенов.

МодельНазначениеЯзыкиТарификация
GPT-Realtime-2Голосовой агент с расширенными рассуждениямиПо токенам
GPT-Realtime-TranslateСинхронный перевод в реальном времени70+ вход / 13 выходПоминутно
GPT-Realtime-WhisperЖивая транскрипция речи в текстПоминутно

GPT-Realtime-Translate — инструмент синхронного перевода, который «не отстаёт» от темпа живого разговора. Модель понимает более 70 языков и выдаёт перевод на 13 языках. Такой охват делает её применимой на международных мероприятиях, в колл-центрах с многоязычной аудиторией и на образовательных платформах. Тарификация — поминутная.

GPT-Realtime-Translate поддерживает более 70 языков на вход и 13 языков на выход в режиме реального времени

Image Credits:Jakub Porzycki/NurPhoto / Getty Images
Image Credits:Jakub Porzycki/NurPhoto / Getty Images · Источник: TechCrunch AI

Третья модель, GPT-Realtime-Whisper, обеспечивает живую транскрипцию: текст появляется по мере того, как произносятся слова, а не после завершения реплики. Название отсылает к оригинальной модели Whisper, которую OpenAI выпустила в 2022 году как open-source инструмент для распознавания речи. Realtime-версия развивает эту идею, добавляя потоковый режим работы прямо внутри API. Тарификация также поминутная.

Все три модели доступны через Realtime API. OpenAI позиционирует их прежде всего для корпоративных клиентов: клиентский сервис, образование, медиа, ивент-индустрия и платформы для авторов контента. Параллельно компания признаёт риски злоупотреблений — в частности, использования голосовых моделей для спама и мошенничества. В систему встроены триггеры, которые прерывают разговор при обнаружении нарушений политики допустимого контента.

На рынке голосовых API OpenAI конкурирует с Google (Gemini Live API), ElevenLabs и рядом специализированных стартапов. Интеграция рассуждений уровня GPT-5 в реалтайм-модель — шаг, который конкуренты пока публично не анонсировали, хотя Google активно развивает мультимодальные возможности Gemini в аналогичном направлении.