OpenAI расширила Realtime API тремя голосовыми моделями, переведя голосовые интерфейсы из режима простого «вопрос — ответ» в сторону полноценных разговорных агентов, способных слушать, рассуждать, переводить и транскрибировать по ходу диалога.
Центральная новинка — GPT-Realtime-2, преемник GPT-Realtime-1.5. Ключевое отличие от предшественника — использование рассуждений уровня GPT-5: модель рассчитана на более сложные пользовательские запросы, а не только на короткие реплики. Это важно для сценариев, где голосовой агент должен не просто ответить на вопрос, но и выполнить многошаговую задачу — например, провести клиента через процедуру поддержки или собрать структурированную информацию в ходе интервью. Модель тарифицируется по потреблению токенов.
| Модель | Назначение | Языки | Тарификация |
|---|---|---|---|
| GPT-Realtime-2 | Голосовой агент с расширенными рассуждениями | — | По токенам |
| GPT-Realtime-Translate | Синхронный перевод в реальном времени | 70+ вход / 13 выход | Поминутно |
| GPT-Realtime-Whisper | Живая транскрипция речи в текст | — | Поминутно |
GPT-Realtime-Translate — инструмент синхронного перевода, который «не отстаёт» от темпа живого разговора. Модель понимает более 70 языков и выдаёт перевод на 13 языках. Такой охват делает её применимой на международных мероприятиях, в колл-центрах с многоязычной аудиторией и на образовательных платформах. Тарификация — поминутная.
GPT-Realtime-Translate поддерживает более 70 языков на вход и 13 языков на выход в режиме реального времени

Третья модель, GPT-Realtime-Whisper, обеспечивает живую транскрипцию: текст появляется по мере того, как произносятся слова, а не после завершения реплики. Название отсылает к оригинальной модели Whisper, которую OpenAI выпустила в 2022 году как open-source инструмент для распознавания речи. Realtime-версия развивает эту идею, добавляя потоковый режим работы прямо внутри API. Тарификация также поминутная.
Все три модели доступны через Realtime API. OpenAI позиционирует их прежде всего для корпоративных клиентов: клиентский сервис, образование, медиа, ивент-индустрия и платформы для авторов контента. Параллельно компания признаёт риски злоупотреблений — в частности, использования голосовых моделей для спама и мошенничества. В систему встроены триггеры, которые прерывают разговор при обнаружении нарушений политики допустимого контента.
На рынке голосовых API OpenAI конкурирует с Google (Gemini Live API), ElevenLabs и рядом специализированных стартапов. Интеграция рассуждений уровня GPT-5 в реалтайм-модель — шаг, который конкуренты пока публично не анонсировали, хотя Google активно развивает мультимодальные возможности Gemini в аналогичном направлении.



