Дата-центры исторически оценивались по вычислительной мощности и стоимости хранения. С переходом на генеративный ИИ их основным продуктом стали токены — единицы текста, которые модели производят в ответ на запросы. NVIDIA предлагает переосмыслить экономику такой инфраструктуры и ввести в качестве главного показателя стоимость производства одного миллиона токенов.
Сравнение двух собственных платформ — HGX H200 на архитектуре Hopper и GB300 NVL72 на архитектуре Blackwell — наглядно демонстрирует разрыв между теоретическими и реальными показателями. Аренда GPU на Blackwell обходится примерно в $2,65 в час против $1,41 у Hopper, то есть дороже примерно вдвое. Метрика FLOPS per dollar тоже даёт Blackwell лишь двукратное преимущество. Однако по числу токенов в секунду на мегаватт разрыв составляет 50 раз: 2,8 млн против 54 тысяч. Итоговая стоимость миллиона токенов — $0,12 у Blackwell и $4,20 у Hopper, то есть разница в 35 раз. Данные основаны на анализе NVIDIA и бенчмарке SemiAnalysis InferenceX v2.
| Metric | NVIDIA Hopper (HGX H200) | NVIDIA Blackwell (GB300 NVL72) | NVIDIA Blackwell Relative to Hopper |
|---|---|---|---|
| Cost per GPU per Hour ($) | $1.41 | $2.65 | 2x |
| FLOP per Dollar (PFLOPS) | 2.8 | 5.6 | 2x |
| Tokens per Second per GPU | 90 | 6,000 | 65x |
| Tokens per Second per MW | 54K | 2.8M | 50x |
| Cost per Million Tokens ($) | $4.20 | $0.12 | 35x lower |
Почему такой разрыв возникает? NVIDIA описывает его через метафору «айсберга инференса». Над поверхностью — цена GPU в час, пиковые петафлопсы, объём памяти. Под поверхностью — всё, что определяет реальный выход токенов: поддержка формата FP4 с сохранением точности, speculative decoding и multi-token prediction для снижения задержки, disaggregated serving и KV-cache offloading для оптимизации памяти, а также способность интерконнекта справляться с паттернами трафика моделей типа mixture-of-experts. Если хотя бы одна из этих оптимизаций отсутствует или не интегрирована с остальными, знаменатель уравнения стоимости токена резко падает.
Стоимость аренды GPU у Blackwell вдвое выше Hopper, но реальная стоимость токена ниже в 35 раз.

Mixture-of-experts — архитектура, которую используют многие современные модели, включая DeepSeek-R1, на котором построено сравнение NVIDIA. В таких моделях активируется лишь часть параметров на каждый токен, что требует интенсивного обмена данными между ускорителями — так называемого all-to-all трафика. Именно поэтому пропускная способность интерконнекта становится узким местом, которое дешёвые GPU-кластеры с медленной связью не могут компенсировать даже при высоких пиковых FLOPS.
Помимо аппаратной части, NVIDIA указывает на роль программного стека. Открытые фреймворки vLLM и SGLang, а также собственные TensorRT-LLM и Dynamo продолжают оптимизироваться уже после покупки оборудования — это означает, что стоимость токена на существующей инфраструктуре снижается со временем без дополнительных капитальных вложений. Такой эффект принципиально отличает инференс от традиционных вычислительных нагрузок, где производительность железа фиксирована с момента установки.
Для предприятий, которые строят собственные ИИ-продукты, выбор метрики оценки инфраструктуры напрямую влияет на юнит-экономику. При стоимости $4,20 за миллион токенов построить прибыльный сервис на основе большой языковой модели значительно сложнее, чем при $0,12. Облачные провайдеры CoreWeave, Nebius, Nscale и Together AI уже предлагают мощности на базе Blackwell, позиционируя их именно через стоимость токена, а не через характеристики чипа.


