AWS раскрыл архитектуру инфраструктуры для обучения и инференса больших моделей

Hugging Face Blog·2 дня назад·3 минИсследованияКод

Hugging Face опубликовал технический разбор того, как AWS строит инфраструктуру для полного жизненного цикла фундаментальных моделей — от предобучения до инференса. Материал фиксирует сдвиг в отрасли: масштабирование больше не сводится к наращиванию вычислений на этапе предобучения.

Кратко

—Scaling-законы эволюционировали: теперь производительность растёт через постобучение (SFT, RL) и вычисления во время инференса, а не только через предобучение.
—AWS предлагает инстансы P5 с H100/H200 и P6 с Blackwell B200/B300; у B300 — 288 ГБ HBM3e и пропускная способность 8 ТБ/с на GPU.
—Внутриузловая связь строится на NVLink/NVSwitch (до 14,4 ТБ/с на P6), межузловая — на EFA с обходом ядра ОС через протокол SRD.
—Открытый стек (PyTorch, JAX, Slurm, Kubernetes, Prometheus, Grafana) накладывается поверх аппаратной инфраструктуры как стандарт отрасли.
—Материал — введение в серию: последующие части разберут оркестрацию ресурсов, ML-фреймворки и наблюдаемость на AWS.

Глоссарий · 7 терминов▾

Scaling laws: Эмпирические закономерности, описывающие, как качество модели улучшается при увеличении числа параметров, объёма данных или вычислительных ресурсов.
Test-time compute: Подход, при котором модель тратит дополнительные вычисления во время генерации ответа — например, перебирая несколько вариантов или проверяя промежуточные шаги.
HBM (High Bandwidth Memory): Тип памяти с высокой пропускной способностью, размещаемый непосредственно на GPU; измеряется в гигабайтах объёма и терабайтах в секунду полосы пропускания.
NVLink / NVSwitch: Проприетарная технология NVIDIA для высокоскоростного соединения GPU внутри одного сервера, позволяющая обмениваться данными без участия процессора и системной шины.
EFA (Elastic Fabric Adapter): Сетевой интерфейс AWS для EC2, обеспечивающий прямой доступ приложений к сетевому устройству в обход ядра ОС, что снижает задержку при межузловых коммуникациях.
All-reduce / All-gather: Коллективные операции в распределённом обучении: all-reduce суммирует градиенты со всех GPU и рассылает результат обратно, all-gather собирает фрагменты тензора со всех участников.
SFT (Supervised Fine-Tuning): Этап постобучения, на котором предобученная модель дообучается на размеченных примерах для выполнения конкретных задач.

Долгое время масштабирование фундаментальных моделей означало одно: больше вычислений на предобучении — выше качество. Эту интуицию подкрепляла работа Kaplan et al. (2020), зафиксировавшая степенные зависимости между потерями и размером модели, объёмом данных и объёмом вычислений. Сегодня картина сложнее: NVIDIA описывает три отдельных scaling-режима — предобучение, постобучение и вычисления во время инференса (так называемое test-time compute: «долгое мышление», поиск с верификацией, стратегии множественной выборки). Каждый из них предъявляет схожие требования к инфраструктуре, но по-разному нагружает её компоненты.

В техническом разборе, опубликованном на Hugging Face Blog, описывается, как AWS реализует эту инфраструктуру. В основе — три взаимосвязанных слоя: ускоренные вычисления с большой памятью устройства, высокополосная низколатентная сеть для коллективных операций и распределённое хранилище для данных и чекпоинтов. Поверх них работает стандартный открытый стек: Slurm или Kubernetes для управления ресурсами кластера, PyTorch или JAX для распределённого обучения, Prometheus и Grafana для мониторинга.

GPU	BF16/FP16 пик (плотный)	FP8 пик (плотный)	FP4 пик (плотный)	Память HBM	Полоса HBM
H100 (SXM)	0,99 PFLOPS	1,98 PFLOPS	—	80 ГБ HBM3	3,35 ТБ/с
H200 (SXM)	0,99 PFLOPS	1,98 PFLOPS	—	141 ГБ HBM3e	4,8 ТБ/с
B200 (HGX, на GPU)	2,25 PFLOPS	4,5 PFLOPS	9 PFLOPS	180 ГБ HBM3e	8 ТБ/с
B300 (HGX, на GPU)	2,25 PFLOPS	4,5 PFLOPS	13,5 PFLOPS	288 ГБ HBM3e	8 ТБ/с

На стороне вычислений AWS предлагает несколько поколений инстансов. Семейство P5 включает p5.48xlarge с восемью NVIDIA H100 (640 ГБ HBM3 суммарно) и p5e/p5en.48xlarge с H200 (1128 ГБ HBM3e). Семейство P6 переходит на архитектуру Blackwell: p6-b200.48xlarge несёт восемь GPU B200 с 1440 ГБ HBM3e, а p6-b300.48xlarge — восемь B300 с 2100 ГБ HBM3e. По пиковой производительности на одном GPU B300 даёт 2,25 PFLOPS для BF16/FP16, 4,5 PFLOPS для FP8 и 13,5 PFLOPS для FP4 (плотные операции без sparsity), что примерно вдвое превышает показатели H100.

AWS предлагает инстансы P5 с H100/H200 и P6 с Blackwell B200/B300; у B300 — 288 ГБ HBM3e и пропускная способность 8 ТБ/с на GPU.

Building Blocks Intro · Источник: Hugging Face Blog

Сеть разделена на два уровня. Внутри узла GPU соединены через NVLink/NVSwitch: у P5 это четвёртое поколение NVLink с агрегатной полосой 7,2 ТБ/с, у P6 — пятое поколение с 14,4 ТБ/с. Такая связность позволяет выполнять коллективные операции (all-reduce, all-gather) без выхода в хостовую сеть. Между узлами работает Elastic Fabric Adapter (EFA) — сетевой интерфейс с обходом ядра ОС через протокол SRD и Libfabric API. Это снижает задержку и повышает пропускную способность для межузловых коллективов. P5 оснащён EFAv2 с агрегатной полосой 400 ГБ/с, P6 с B300 — EFAv4 с 800 ГБ/с.

Авторы подчёркивают принципиальный момент: при масштабировании время шага обучения всё чаще определяется не сырой вычислительной мощностью, а пропускной способностью коллективных коммуникаций и скоростью перемещения данных в памяти. Это делает явный учёт полосы пропускания — как внутри узла, так и между узлами — обязательным при проектировании кластера, а не опциональным.

Опубликованный материал позиционируется как введение в серию. Последующие части обещают разобрать оркестрацию ресурсов, ML-фреймворки и наблюдаемость. Для отрасли это означает появление структурированного публичного руководства по стыковке открытого программного стека с конкретной облачной аппаратурой — информации, которая прежде существовала преимущественно в виде разрозненной документации и внутренних знаний команд.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме