За месяц компания NVIDIA добилась снижения стоимости токенов для модели DeepSeek V4 на платформе Blackwell в 5 раз. Это стало возможным благодаря оптимизациям полного программного стека инференса, который охватывает производственную эксплуатацию, ускорение приложений и доступ к инфраструктуре. В условиях перехода от пилотных ИИ-проектов к промышленным ИИ-фабрикам ключевым показателем становится стоимость за токен, и NVIDIA демонстрирует, как программные улучшения могут повысить эффективность без замены оборудования.

Стек инференса NVIDIA состоит из трех уровней. Первый — производственная эксплуатация: координирует распределенное обслуживание, оркестрацию, автоскейлинг и управление памятью. Второй — ускорение приложений: обеспечивает высокую производительность моделей с возможностью настройки через runtime-оптимизации, такие как перекрытие вычислений и коммуникаций и слияние ядер. Третий — доступ к инфраструктуре: предоставляет возможности GPU, сети и памяти без необходимости управлять каждым набором инструкций напрямую.

Эти уровни работают как единая система, где отдельные оптимизации усиливают друг друга. Среди ключевых методов — Disaggregated serving (раздельное обслуживание), Large Expert Parallelism (крупномасштабный параллелизм экспертов) на базе NVLink, прецизионность NVFP4 и Multi-Token Prediction (предсказание нескольких токенов). По данным NVIDIA, каждая из этих оптимизаций дает заметный прирост, но в совокупности они увеличивают пропускную способность до 20 раз по сравнению с базовым уровнем.

Программный стек NVIDIA включает три уровня: производственная эксплуатация, ускорение приложений и доступ к инфраструктуре.

Открытая экосистема усиливает эффект. Многие популярные ИИ-фреймворки, включая PyTorch и TensorRT-LLM, изначально построены на CUDA, что позволяет новым оптимизациям сразу работать на GPU NVIDIA с максимальной производительностью. Компании уже используют эти возможности: Baseten применяет TensorRT-LLM для обслуживания DeepSeek V4 Pro на Blackwell, добиваясь до 50% больше токенов в секунду. Cognition использует фреймворк NVIDIA Dynamo для управления GPU в задачах reinforcement learning. Deep Infra и Together ИИ также внедрили стек NVIDIA для быстрого запуска open-source моделей и ускорения продакшн-энпоинтов.

Переход к агентному ИИ с распределенными, stateful-вычислительными процессами делает программную оптимизацию еще более критичной. В отличие от традиционных веб-нагрузок, агентные ИИ-системы порождают сложные распределенные задачи, включающие множество суб-агентов, инструментов и контекстов. Без эффективного программного стека эта сложность приводит к потере вычислительной мощности. NVIDIA показывает, что целостный подход к инференс-софту может превратить сложность в снижение стоимости.