Стоимость токена вместо FLOPS: как NVIDIA считает экономику ИИ-инфраструктуры

Подготовлено редакцией Malakhov AI

NVIDIA Blog·15 апр.·3 минЛабораторииКод

NVIDIA опубликовала сравнительный анализ платформ Hopper и Blackwell, в котором GB300 NVL72 показывает стоимость генерации в $0,12 за миллион токенов против $4,20 у HGX H200 — разрыв в 35 раз при двукратной разнице в цене аренды GPU. Компания настаивает, что традиционные метрики вроде FLOPS per dollar вводят покупателей в заблуждение.

Кратко

—GB300 NVL72 генерирует 2,8 млн токенов в секунду на мегаватт против 54 тысяч у HGX H200 — разрыв в 50 раз.
—Стоимость аренды GPU у Blackwell вдвое выше Hopper, но реальная стоимость токена ниже в 35 раз.
—NVIDIA называет cost per token единственной метрикой TCO, отражающей реальную экономику инференса.
—Оптимизации в стеке — FP4, speculative decoding, disaggregated serving — критичны для знаменателя уравнения стоимости токена.
—CoreWeave, Nebius, Nscale и Together AI уже развернули инфраструктуру на Blackwell для коммерческих клиентов.

Глоссарий · 7 терминов▾

TCO (Total Cost of Ownership): Совокупная стоимость владения — все затраты на инфраструктуру за весь срок её использования, включая покупку, эксплуатацию и обслуживание.
FLOPS per dollar: Количество операций с плавающей точкой в секунду на каждый потраченный доллар — метрика теоретической вычислительной эффективности оборудования.
Инференс: Процесс работы обученной модели ИИ в боевом режиме — генерация ответов на запросы пользователей в отличие от обучения модели.
Mixture-of-Experts (MoE): Архитектура нейросети, в которой на каждый входной токен активируется только часть параметров модели, что снижает вычислительную нагрузку при большом общем числе параметров.
Speculative decoding: Метод ускорения генерации текста, при котором вспомогательная малая модель предсказывает несколько токенов вперёд, а основная модель проверяет и принимает или отклоняет эти предсказания.
KV-cache: Кэш промежуточных вычислений (ключей и значений) в трансформерных моделях, позволяющий не пересчитывать уже обработанный контекст при генерации каждого нового токена.
FP4: Формат представления чисел с плавающей точкой в 4 битах — позволяет хранить больше параметров модели в памяти и ускорять вычисления при минимальной потере точности.

Дата-центры исторически оценивались по вычислительной мощности и стоимости хранения. С переходом на генеративный ИИ их основным продуктом стали токены — единицы текста, которые модели производят в ответ на запросы. NVIDIA предлагает переосмыслить экономику такой инфраструктуры и ввести в качестве главного показателя стоимость производства одного миллиона токенов.

Сравнение двух собственных платформ — HGX H200 на архитектуре Hopper и GB300 NVL72 на архитектуре Blackwell — наглядно демонстрирует разрыв между теоретическими и реальными показателями. Аренда GPU на Blackwell обходится примерно в $2,65 в час против $1,41 у Hopper, то есть дороже примерно вдвое. Метрика FLOPS per dollar тоже даёт Blackwell лишь двукратное преимущество. Однако по числу токенов в секунду на мегаватт разрыв составляет 50 раз: 2,8 млн против 54 тысяч. Итоговая стоимость миллиона токенов — $0,12 у Blackwell и $4,20 у Hopper, то есть разница в 35 раз. Данные основаны на анализе NVIDIA и бенчмарке SemiAnalysis InferenceX v2.

Metric	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell Relative to Hopper
Cost per GPU per Hour ($)	$1.41	$2.65	2x
FLOP per Dollar (PFLOPS)	2.8	5.6	2x
Tokens per Second per GPU	90	6,000	65x
Tokens per Second per MW	54K	2.8M	50x
Cost per Million Tokens ($)	$4.20	$0.12	35x lower

Почему такой разрыв возникает? NVIDIA описывает его через метафору «айсберга инференса». Над поверхностью — цена GPU в час, пиковые петафлопсы, объём памяти. Под поверхностью — всё, что определяет реальный выход токенов: поддержка формата FP4 с сохранением точности, speculative decoding и multi-token prediction для снижения задержки, disaggregated serving и KV-cache offloading для оптимизации памяти, а также способность интерконнекта справляться с паттернами трафика моделей типа mixture-of-experts. Если хотя бы одна из этих оптимизаций отсутствует или не интегрирована с остальными, знаменатель уравнения стоимости токена резко падает.

Стоимость аренды GPU у Blackwell вдвое выше Hopper, но реальная стоимость токена ниже в 35 раз.

Mixture-of-experts — архитектура, которую используют многие современные модели, включая DeepSeek-R1, на котором построено сравнение NVIDIA. В таких моделях активируется лишь часть параметров на каждый токен, что требует интенсивного обмена данными между ускорителями — так называемого all-to-all трафика. Именно поэтому пропускная способность интерконнекта становится узким местом, которое дешёвые GPU-кластеры с медленной связью не могут компенсировать даже при высоких пиковых FLOPS.

Помимо аппаратной части, NVIDIA указывает на роль программного стека. Открытые фреймворки vLLM и SGLang, а также собственные TensorRT-LLM и Dynamo продолжают оптимизироваться уже после покупки оборудования — это означает, что стоимость токена на существующей инфраструктуре снижается со временем без дополнительных капитальных вложений. Такой эффект принципиально отличает инференс от традиционных вычислительных нагрузок, где производительность железа фиксирована с момента установки.

Для предприятий, которые строят собственные ИИ-продукты, выбор метрики оценки инфраструктуры напрямую влияет на юнит-экономику. При стоимости $4,20 за миллион токенов построить прибыльный сервис на основе большой языковой модели значительно сложнее, чем при $0,12. Облачные провайдеры CoreWeave, Nebius, Nscale и Together AI уже предлагают мощности на базе Blackwell, позиционируя их именно через стоимость токена, а не через характеристики чипа.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза

Продолжить по разделам

Стоимость токена вместо FLOPS: как NVIDIA считает экономику ИИ-инфраструктуры

Кратко

Читать дальше

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Stripe на 26% ускорил compliance-проверки с помощью ИИ-агентов на AWS Bedrock

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза