Инженеры OpenAI в начале апреля сообщили коллегам, что им удалось более чем вдвое сократить затраты на инференс — выполнение запросов уже обученных ИИ-моделей. Об этом пишет The Information со ссылкой на источник, знакомый с ходом обсуждений. Оптимизация была применена к ChatGPT для пользователей без учётной записи (гостевой режим). В результате количество графических процессоров Nvidia, необходимых для обслуживания этой категории пользователей, снизилось до «всего нескольких сотен». Сколько именно GPU требовалось ранее, не уточняется. Также не раскрывается, какие именно методы использовала OpenAI для достижения такого результата.
Стоит отметить, что гостевые пользователи имеют доступ лишь к очень ограниченному набору функций ChatGPT. Поэтому неясно, сохранится ли подобная эффективность при работе с полной версией продукта. Тем временем компания DeepSeek недавно представила новый open-source метод, который позволяет ускорить обработку инференс-запросов на 60–85%. Оба события указывают на то, что оптимизация инференса становится одним из ключевых направлений конкуренции среди разработчиков больших языковых моделей.
Высвободившиеся вычислительные ресурсы могут быть направлены на масштабирование сервисов, улучшение качества ответов моделей, повышение скорости работы или увеличение маржинальности. Однако, поскольку строительство новых дата-центров продвигается медленно, такие оптимизации, скорее всего, дадут лабораториям дополнительную операционную гибкость, а не приведут к немедленному сокращению спроса на чипы. Для отрасли это означает продолжение тренда на повышение эффективности использования вычислительных мощностей, что особенно важно в условиях сохраняющегося дефицита GPU.
Количество GPU Nvidia, требуемых для обслуживания этих пользователей, сократилось до нескольких сотен.



