NVIDIA снизила стоимость токенов на Blackwell в 5 раз за месяц

Подготовлено редакцией Malakhov AI

NVIDIA Blog·3 часа назад·2 минЛабораторииКод

За месяц на платформе Blackwell стоимость токенов для модели DeepSeek V4 снизилась в 5 раз благодаря оптимизациям программного стека NVIDIA, который охватывает три уровня: производственную эксплуатацию, ускорение приложений и доступ к инфраструктуре.

Кратко

—NVIDIA заявила о снижении стоимости токенов на платформе Blackwell до 5 раз за месяц для DeepSeek V4.
—Программный стек NVIDIA включает три уровня: производственная эксплуатация, ускорение приложений и доступ к инфраструктуре.
—Совокупные оптимизации (disaggregated serving, Large EP, NVFP4, MTP) дают до 20-кратного увеличения пропускной способности.
—Открытые фреймворки, такие как PyTorch и TensorRT-LLM, усиливают эффект за счет нативной поддержки CUDA.
—Компании Baseten, Cognition, Deep Infra и Together ИИ уже используют стек для снижения затрат.

Глоссарий · 6 терминов▾

Disaggregated serving: Архитектура, в которой этапы обработки запроса разделены на отдельные службы, работающие на разных ресурсах.
Large Expert Parallelism: Метод распараллеливания моделей типа Mixture-of-Experts, при котором каждый эксперт размещается на отдельном GPU или узле.
NVFP4: Формат чисел с плавающей точкой малой разрядности (4 бита), оптимизированный для инференса на GPU NVIDIA.
Multi-Token Prediction (MTP): Техника, при которой модель предсказывает сразу несколько следующих токенов за один шаг.
TensorRT-LLM: Открытая библиотека NVIDIA для оптимизации и развертывания больших языковых моделей.
NVIDIA Dynamo: Фреймворк для управления распределенным инференсом, включая оркестрацию GPU и автоскейлинг.

За месяц компания NVIDIA добилась снижения стоимости токенов для модели DeepSeek V4 на платформе Blackwell в 5 раз. Это стало возможным благодаря оптимизациям полного программного стека инференса, который охватывает производственную эксплуатацию, ускорение приложений и доступ к инфраструктуре. В условиях перехода от пилотных ИИ-проектов к промышленным ИИ-фабрикам ключевым показателем становится стоимость за токен, и NVIDIA демонстрирует, как программные улучшения могут повысить эффективность без замены оборудования.

Стек инференса NVIDIA состоит из трех уровней. Первый — производственная эксплуатация: координирует распределенное обслуживание, оркестрацию, автоскейлинг и управление памятью. Второй — ускорение приложений: обеспечивает высокую производительность моделей с возможностью настройки через runtime-оптимизации, такие как перекрытие вычислений и коммуникаций и слияние ядер. Третий — доступ к инфраструктуре: предоставляет возможности GPU, сети и памяти без необходимости управлять каждым набором инструкций напрямую.

Эти уровни работают как единая система, где отдельные оптимизации усиливают друг друга. Среди ключевых методов — Disaggregated serving (раздельное обслуживание), Large Expert Parallelism (крупномасштабный параллелизм экспертов) на базе NVLink, прецизионность NVFP4 и Multi-Token Prediction (предсказание нескольких токенов). По данным NVIDIA, каждая из этих оптимизаций дает заметный прирост, но в совокупности они увеличивают пропускную способность до 20 раз по сравнению с базовым уровнем.

Программный стек NVIDIA включает три уровня: производственная эксплуатация, ускорение приложений и доступ к инфраструктуре.

Открытая экосистема усиливает эффект. Многие популярные ИИ-фреймворки, включая PyTorch и TensorRT-LLM, изначально построены на CUDA, что позволяет новым оптимизациям сразу работать на GPU NVIDIA с максимальной производительностью. Компании уже используют эти возможности: Baseten применяет TensorRT-LLM для обслуживания DeepSeek V4 Pro на Blackwell, добиваясь до 50% больше токенов в секунду. Cognition использует фреймворк NVIDIA Dynamo для управления GPU в задачах reinforcement learning. Deep Infra и Together ИИ также внедрили стек NVIDIA для быстрого запуска open-source моделей и ускорения продакшн-энпоинтов.

Переход к агентному ИИ с распределенными, stateful-вычислительными процессами делает программную оптимизацию еще более критичной. В отличие от традиционных веб-нагрузок, агентные ИИ-системы порождают сложные распределенные задачи, включающие множество суб-агентов, инструментов и контекстов. Без эффективного программного стека эта сложность приводит к потере вычислительной мощности. NVIDIA показывает, что целостный подход к инференс-софту может превратить сложность в снижение стоимости.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ