Amazon SageMaker ИИ начал предлагать инстансы P6-B200 с восемью GPU NVIDIA Blackwell для обучения крупных моделей. Новая архитектура Blackwell (B200 с 180 ГБ HBM, B300 с 268 ГБ) и интерконнект NVLink 5 (1,8 ТБ/с) снижают узкие места, с которыми сталкиваются специалисты по обучению: ограниченный размер батча, короткие последовательности и избыточный шардинг.
Blackwell привносит два ключевых улучшения: больше памяти на GPU и новые форматы точности, такие как MXFP8. Это позволяет сократить число узлов для моделей до 64B параметров — всё умещается на один 8-GPU узел. В тестах с моделью на 1B параметров (длина последовательности 8K, точность MXFP8) включение activation checkpointing снизило пиковое потребление памяти с 15,5 до 2,3 ГБ, хотя пропускная способность чуть упала — с ~6K до ~5,4K токенов/с. Освободившуюся память можно направить на увеличение батча или длины последовательности.
| Параметр | B200 | B300 |
|---|---|---|
| Память HBM | 180 ГБ | 268 ГБ |
| Интерконнект | NVLink 5, 1.8 ТБ/с | NVLink 5, 1.8 ТБ/с |
Для планирования ресурсов Amazon предлагает Flexible Training Plan — сервис с предсказуемым доступом, контролем затрат и автоматическим управлением инфраструктурой. Настройка обучения сводится к выбору размера батча, длины последовательности, стратегии шардинга (FSDP) и формата точности. Если цель — пропускная способность, стоит начать с батча; если узкое место — коммуникация, упростить шардинг; если нужен длинный контекст — увеличить последовательность. Activation checkpointing добавляет 10–30% вычислительных накладных расходов, но даёт гибкость в распределении памяти.
Blackwell B200 получил 180 ГБ HBM, B300 — 268 ГБ; NVLink 5 даёт 1,8 ТБ/с пропускной способности.



