Долгое время масштабирование фундаментальных моделей означало одно: больше вычислений на предобучении — выше качество. Эту интуицию подкрепляла работа Kaplan et al. (2020), зафиксировавшая степенные зависимости между потерями и размером модели, объёмом данных и объёмом вычислений. Сегодня картина сложнее: NVIDIA описывает три отдельных scaling-режима — предобучение, постобучение и вычисления во время инференса (так называемое test-time compute: «долгое мышление», поиск с верификацией, стратегии множественной выборки). Каждый из них предъявляет схожие требования к инфраструктуре, но по-разному нагружает её компоненты.

В техническом разборе, опубликованном на Hugging Face Blog, описывается, как AWS реализует эту инфраструктуру. В основе — три взаимосвязанных слоя: ускоренные вычисления с большой памятью устройства, высокополосная низколатентная сеть для коллективных операций и распределённое хранилище для данных и чекпоинтов. Поверх них работает стандартный открытый стек: Slurm или Kubernetes для управления ресурсами кластера, PyTorch или JAX для распределённого обучения, Prometheus и Grafana для мониторинга.

GPUBF16/FP16 пик (плотный)FP8 пик (плотный)FP4 пик (плотный)Память HBMПолоса HBM
H100 (SXM)0,99 PFLOPS1,98 PFLOPS80 ГБ HBM33,35 ТБ/с
H200 (SXM)0,99 PFLOPS1,98 PFLOPS141 ГБ HBM3e4,8 ТБ/с
B200 (HGX, на GPU)2,25 PFLOPS4,5 PFLOPS9 PFLOPS180 ГБ HBM3e8 ТБ/с
B300 (HGX, на GPU)2,25 PFLOPS4,5 PFLOPS13,5 PFLOPS288 ГБ HBM3e8 ТБ/с

На стороне вычислений AWS предлагает несколько поколений инстансов. Семейство P5 включает p5.48xlarge с восемью NVIDIA H100 (640 ГБ HBM3 суммарно) и p5e/p5en.48xlarge с H200 (1128 ГБ HBM3e). Семейство P6 переходит на архитектуру Blackwell: p6-b200.48xlarge несёт восемь GPU B200 с 1440 ГБ HBM3e, а p6-b300.48xlarge — восемь B300 с 2100 ГБ HBM3e. По пиковой производительности на одном GPU B300 даёт 2,25 PFLOPS для BF16/FP16, 4,5 PFLOPS для FP8 и 13,5 PFLOPS для FP4 (плотные операции без sparsity), что примерно вдвое превышает показатели H100.

AWS предлагает инстансы P5 с H100/H200 и P6 с Blackwell B200/B300; у B300 — 288 ГБ HBM3e и пропускная способность 8 ТБ/с на GPU.

Building Blocks Intro
Building Blocks Intro · Источник: Hugging Face Blog

Сеть разделена на два уровня. Внутри узла GPU соединены через NVLink/NVSwitch: у P5 это четвёртое поколение NVLink с агрегатной полосой 7,2 ТБ/с, у P6 — пятое поколение с 14,4 ТБ/с. Такая связность позволяет выполнять коллективные операции (all-reduce, all-gather) без выхода в хостовую сеть. Между узлами работает Elastic Fabric Adapter (EFA) — сетевой интерфейс с обходом ядра ОС через протокол SRD и Libfabric API. Это снижает задержку и повышает пропускную способность для межузловых коллективов. P5 оснащён EFAv2 с агрегатной полосой 400 ГБ/с, P6 с B300 — EFAv4 с 800 ГБ/с.

Авторы подчёркивают принципиальный момент: при масштабировании время шага обучения всё чаще определяется не сырой вычислительной мощностью, а пропускной способностью коллективных коммуникаций и скоростью перемещения данных в памяти. Это делает явный учёт полосы пропускания — как внутри узла, так и между узлами — обязательным при проектировании кластера, а не опциональным.

Опубликованный материал позиционируется как введение в серию. Последующие части обещают разобрать оркестрацию ресурсов, ML-фреймворки и наблюдаемость. Для отрасли это означает появление структурированного публичного руководства по стыковке открытого программного стека с конкретной облачной аппаратурой — информации, которая прежде существовала преимущественно в виде разрозненной документации и внутренних знаний команд.