NVIDIA Blackwell на SageMaker ИИ: как настроить обучение моделей

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·4 часа назад·1 минЛабораторииКод

Amazon SageMaker ИИ запустил поддержку инстансов P6-B200 с восемью GPU NVIDIA Blackwell для обучения крупных языковых моделей. 180 ГБ памяти на GPU (B200) и поддержка новых форматов точности, таких как MXFP8, позволяют обрабатывать более длинные последовательности и большие батчи без агрессивного шардинга, снижая коммуникационные накладные расходы.

Кратко

—Инстансы P6-B200 с 8 GPU Blackwell доступны на SageMaker ИИ через Flexible Training Plan.
—Blackwell B200 получил 180 ГБ HBM, B300 — 268 ГБ; NVLink 5 даёт 1,8 ТБ/с пропускной способности.
—Контрольные точки активации сокращают пиковое потребление памяти с 15,5 до 2,3 ГБ на модели 1B.
—Правильный выбор точности (MXFP8 вместо FP16) позволяет уместить модели до 64B параметров на одном 8-GPU узле.
—Оптимизация батча, шардинга и длины последовательности под Blackwell даёт прирост пропускной способности.

Глоссарий · 4 термина▾

FSDP: Fully Sharded Data Parallel — техника распределённого обучения, которая шардирует параметры, градиенты и состояния оптимизатора между GPU, позволяя обучать модели, превышающие объём памяти одного GPU.
Activation checkpointing: Метод экономии памяти, при котором промежуточные активации не сохраняются, а пересчитываются во время обратного прохода; увеличивает время вычислений на 10–30%.
MXFP8: Microscaling Floating Point 8 — формат точности с низким числом бит, позволяющий эффективно использовать память при обучении больших моделей.
NVLink 5: Проприетарный высокоскоростной интерконнект от NVIDIA для связи GPU с пропускной способностью до 1,8 ТБ/с.

Amazon SageMaker ИИ начал предлагать инстансы P6-B200 с восемью GPU NVIDIA Blackwell для обучения крупных моделей. Новая архитектура Blackwell (B200 с 180 ГБ HBM, B300 с 268 ГБ) и интерконнект NVLink 5 (1,8 ТБ/с) снижают узкие места, с которыми сталкиваются специалисты по обучению: ограниченный размер батча, короткие последовательности и избыточный шардинг.

Blackwell привносит два ключевых улучшения: больше памяти на GPU и новые форматы точности, такие как MXFP8. Это позволяет сократить число узлов для моделей до 64B параметров — всё умещается на один 8-GPU узел. В тестах с моделью на 1B параметров (длина последовательности 8K, точность MXFP8) включение activation checkpointing снизило пиковое потребление памяти с 15,5 до 2,3 ГБ, хотя пропускная способность чуть упала — с ~6K до ~5,4K токенов/с. Освободившуюся память можно направить на увеличение батча или длины последовательности.

Параметр	B200	B300
Память HBM	180 ГБ	268 ГБ
Интерконнект	NVLink 5, 1.8 ТБ/с	NVLink 5, 1.8 ТБ/с

Для планирования ресурсов Amazon предлагает Flexible Training Plan — сервис с предсказуемым доступом, контролем затрат и автоматическим управлением инфраструктурой. Настройка обучения сводится к выбору размера батча, длины последовательности, стратегии шардинга (FSDP) и формата точности. Если цель — пропускная способность, стоит начать с батча; если узкое место — коммуникация, упростить шардинг; если нужен длинный контекст — увеличить последовательность. Activation checkpointing добавляет 10–30% вычислительных накладных расходов, но даёт гибкость в распределении памяти.

Blackwell B200 получил 180 ГБ HBM, B300 — 268 ГБ; NVLink 5 даёт 1,8 ТБ/с пропускной способности.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Механизмы усиления памяти: как рассуждения помогают LLM извлекать факты

Продолжить по разделам

NVIDIA Blackwell на SageMaker ИИ: как настроить обучение моделей

Кратко

Читать дальше

Agentic overlays: как добавить A2A в REST-сервисы без переписывания кода

NVIDIA и AWS расширяют инфраструктуру для промышленного ИИ

Механизмы усиления памяти: как рассуждения помогают LLM извлекать факты