OpenAI вдвое сократил затраты на инференс для гостевых пользователей ChatGPT

Подготовлено редакцией Malakhov AI

The Decoder·2 часа назад·1 минИсследованияИндустрия

Инженеры OpenAI в начале апреля добились снижения затрат на выполнение запросов ИИ-моделей для неавторизованных пользователей ChatGPT более чем вдвое. Оптимизация позволила сократить количество необходимых GPU Nvidia до нескольких сотен, сообщает The Information со ссылкой на осведомлённый источник.

Кратко

—OpenAI снизил стоимость инференса для гостевых пользователей ChatGPT более чем вдвое.
—Количество GPU Nvidia, требуемых для обслуживания этих пользователей, сократилось до нескольких сотен.
—Техника оптимизации не раскрыта; результаты могут не переноситься на полную версию ChatGPT.
—Конкурирующий DeepSeek недавно представил open-source метод, ускоряющий инференс на 60–85%.
—Высвобожденные ресурсы могут пойти на масштабирование сервисов или улучшение моделей.

Глоссарий · 3 термина▾

инференс: Процесс выполнения запросов к уже обученной модели ИИ, в ходе которого модель генерирует ответ на основе входных данных.
GPU: Графический процессор, специализированное устройство, широко используемое для ускорения вычислений в задачах машинного обучения и инференса.
open-source: Программное обеспечение с открытым исходным кодом, доступное для изучения, модификации и распространения.

Инженеры OpenAI в начале апреля сообщили коллегам, что им удалось более чем вдвое сократить затраты на инференс — выполнение запросов уже обученных ИИ-моделей. Об этом пишет The Information со ссылкой на источник, знакомый с ходом обсуждений. Оптимизация была применена к ChatGPT для пользователей без учётной записи (гостевой режим). В результате количество графических процессоров Nvidia, необходимых для обслуживания этой категории пользователей, снизилось до «всего нескольких сотен». Сколько именно GPU требовалось ранее, не уточняется. Также не раскрывается, какие именно методы использовала OpenAI для достижения такого результата.

Стоит отметить, что гостевые пользователи имеют доступ лишь к очень ограниченному набору функций ChatGPT. Поэтому неясно, сохранится ли подобная эффективность при работе с полной версией продукта. Тем временем компания DeepSeek недавно представила новый open-source метод, который позволяет ускорить обработку инференс-запросов на 60–85%. Оба события указывают на то, что оптимизация инференса становится одним из ключевых направлений конкуренции среди разработчиков больших языковых моделей.

Высвободившиеся вычислительные ресурсы могут быть направлены на масштабирование сервисов, улучшение качества ответов моделей, повышение скорости работы или увеличение маржинальности. Однако, поскольку строительство новых дата-центров продвигается медленно, такие оптимизации, скорее всего, дадут лабораториям дополнительную операционную гибкость, а не приведут к немедленному сокращению спроса на чипы. Для отрасли это означает продолжение тренда на повышение эффективности использования вычислительных мощностей, что особенно важно в условиях сохраняющегося дефицита GPU.

Количество GPU Nvidia, требуемых для обслуживания этих пользователей, сократилось до нескольких сотен.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ