Дата-центры исторически оценивались по вычислительной мощности и стоимости хранения. С переходом на генеративный ИИ их основным продуктом стали токены — единицы текста, которые модели производят в ответ на запросы. NVIDIA предлагает переосмыслить экономику такой инфраструктуры и ввести в качестве главного показателя стоимость производства одного миллиона токенов.

Сравнение двух собственных платформ — HGX H200 на архитектуре Hopper и GB300 NVL72 на архитектуре Blackwell — наглядно демонстрирует разрыв между теоретическими и реальными показателями. Аренда GPU на Blackwell обходится примерно в $2,65 в час против $1,41 у Hopper, то есть дороже примерно вдвое. Метрика FLOPS per dollar тоже даёт Blackwell лишь двукратное преимущество. Однако по числу токенов в секунду на мегаватт разрыв составляет 50 раз: 2,8 млн против 54 тысяч. Итоговая стоимость миллиона токенов — $0,12 у Blackwell и $4,20 у Hopper, то есть разница в 35 раз. Данные основаны на анализе NVIDIA и бенчмарке SemiAnalysis InferenceX v2.

MetricNVIDIA Hopper (HGX H200)NVIDIA Blackwell (GB300 NVL72)NVIDIA Blackwell Relative to Hopper
Cost per GPU per Hour ($)$1.41$2.652x
FLOP per Dollar (PFLOPS)2.85.62x
Tokens per Second per GPU906,00065x
Tokens per Second per MW54K2.8M50x
Cost per Million Tokens ($)$4.20$0.1235x lower

Почему такой разрыв возникает? NVIDIA описывает его через метафору «айсберга инференса». Над поверхностью — цена GPU в час, пиковые петафлопсы, объём памяти. Под поверхностью — всё, что определяет реальный выход токенов: поддержка формата FP4 с сохранением точности, speculative decoding и multi-token prediction для снижения задержки, disaggregated serving и KV-cache offloading для оптимизации памяти, а также способность интерконнекта справляться с паттернами трафика моделей типа mixture-of-experts. Если хотя бы одна из этих оптимизаций отсутствует или не интегрирована с остальными, знаменатель уравнения стоимости токена резко падает.

Стоимость аренды GPU у Blackwell вдвое выше Hopper, но реальная стоимость токена ниже в 35 раз.

Стоимость токена вместо FLOPS: как NVIDIA считает экономику ИИ-инфраструктуры
· Источник: NVIDIA Blog

Mixture-of-experts — архитектура, которую используют многие современные модели, включая DeepSeek-R1, на котором построено сравнение NVIDIA. В таких моделях активируется лишь часть параметров на каждый токен, что требует интенсивного обмена данными между ускорителями — так называемого all-to-all трафика. Именно поэтому пропускная способность интерконнекта становится узким местом, которое дешёвые GPU-кластеры с медленной связью не могут компенсировать даже при высоких пиковых FLOPS.

Помимо аппаратной части, NVIDIA указывает на роль программного стека. Открытые фреймворки vLLM и SGLang, а также собственные TensorRT-LLM и Dynamo продолжают оптимизироваться уже после покупки оборудования — это означает, что стоимость токена на существующей инфраструктуре снижается со временем без дополнительных капитальных вложений. Такой эффект принципиально отличает инференс от традиционных вычислительных нагрузок, где производительность железа фиксирована с момента установки.

Для предприятий, которые строят собственные ИИ-продукты, выбор метрики оценки инфраструктуры напрямую влияет на юнит-экономику. При стоимости $4,20 за миллион токенов построить прибыльный сервис на основе большой языковой модели значительно сложнее, чем при $0,12. Облачные провайдеры CoreWeave, Nebius, Nscale и Together AI уже предлагают мощности на базе Blackwell, позиционируя их именно через стоимость токена, а не через характеристики чипа.