AWS запустила G7e-инстансы на SageMaker с GPU NVIDIA RTX PRO 6000 Blackwell

AWS Machine Learning Blog·20 апр.·3 минЛабораторииКод

Amazon Web Services добавила в SageMaker AI инстансы G7e на базе GPU NVIDIA RTX PRO 6000 Blackwell с 96 ГБ GDDR7-памяти на каждую карту — вдвое больше, чем у предыдущего поколения G6e. На одном узле теперь можно запускать модели с 35 млрд параметров, а стоимость генерации при высокой нагрузке снижается в 2,6 раза.

Кратко

—Каждый GPU RTX PRO 6000 Blackwell несёт 96 ГБ GDDR7-памяти; конфигурация из 8 карт даёт 768 ГБ суммарно.
—Производительность инференса до 2,3× выше по сравнению с G6e при сетевой пропускной способности до 1600 Гбит/с.
—Одиночный инстанс G7e.2xlarge стоит $4,20/ч против $13,12/ч у G6e.12xlarge с 4 GPU — при схожей пропускной способности токенов.
—При нагрузке C=32 стоимость генерации составляет $0,79 за миллион токенов против $2,06 у G6e.
—G7e поддерживает FP4-точность через Tensor Cores пятого поколения и NVIDIA GPUDirect RDMA через EFAv4.

Глоссарий · 7 терминов▾

Tensor Cores: Специализированные вычислительные блоки в GPU NVIDIA, оптимизированные для матричных операций, которые составляют основу вычислений в нейронных сетях.
Tensor parallelism: Способ распределения весов модели между несколькими GPU, при котором каждая карта хранит и обрабатывает часть параметров одновременно.
KV-кеш: Кеш ключей и значений в механизме внимания трансформера, который хранит промежуточные вычисления для ускорения генерации длинных последовательностей.
EFA (Elastic Fabric Adapter): Сетевой интерфейс AWS с низкой латентностью для высокопроизводительных вычислений, позволяющий GPU на разных узлах обмениваться данными с минимальными задержками.
RAG (Retrieval Augmented Generation): Подход, при котором языковая модель дополняет генерацию текста данными, извлечёнными из внешней базы знаний в момент запроса.
FP4 / BF16: Форматы числовой точности для хранения весов модели: FP4 использует 4 бита на число и сильнее сжимает модель, BF16 — 16 бит с балансом между точностью и скоростью.
Спекулятивное декодирование: Техника ускорения генерации текста, при которой вспомогательная модель предсказывает несколько токенов вперёд, а основная модель проверяет их за один проход.

На Amazon SageMaker AI стали доступны инстансы G7e, оснащённые GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Конфигурации включают 1, 2, 4 и 8 карт; каждая несёт 96 ГБ GDDR7-памяти с пропускной способностью 1597 ГБ/с. Максимальная конфигурация — g7e.48xlarge с 8 GPU — аккумулирует 768 ГБ видеопамяти и поддерживает сетевой интерфейс EFA на скорости 1600 Гбит/с.

Для понимания масштаба изменений полезно сравнение поколений. У G5 (NVIDIA A10G) на каждую карту приходилось 24 ГБ GDDR6-памяти и 600 ГБ/с пропускной способности, у G6e (NVIDIA L40S) — 48 ГБ и 864 ГБ/с. G7e удваивает эти показатели относительно G6e и учетверяет относительно G5. Сетевая пропускная способность выросла с 400 Гбит/с у G6e до 1600 Гбит/с у G7e — рост в четыре раза. Это принципиально меняет возможности многоузловых сценариев: задержки при обмене данными между GPU снижаются настолько, что распределённый инференс и дообучение крупных моделей становятся практически применимыми на G-серии.

Spec	G5 (g5.48xlarge)	G6e (g6e.48xlarge)	G7e (g7e.48xlarge)
GPU	8x NVIDIA A10G	8x NVIDIA L40S	8x NVIDIA RTX PRO 6000 Blackwell
GPU Memory per GPU	24 GB GDDR6	48 GB GDDR6	96 GB GDDR7
Total GPU Memory	192 GB	384 GB	768 GB
GPU Memory Bandwidth	600 GB/s per GPU	864 GB/s per GPU	1,597 GB/s per GPU
vCPUs	192	192	192
System Memory	768 GiB	1,536 GiB	2,048 GiB
Network Bandwidth	100 Gbps	400 Gbps	1,600 Gbps (EFA)
Local NVMe Storage	7.6 TB	7.6 TB	15.2 TB
Inference vs. G6e	Baseline	~1x	Up to 2.3x

Ключевое следствие роста памяти — изменение порогов для размещения моделей. На одном инстансе G7e.2xlarge в формате FP16 помещается модель с 35 млрд параметров, на четырёх GPU — до 150 млрд, на восьми — до 300 млрд. Ранее модели такого масштаба требовали многоузловых кластеров на G5 или G6e, что увеличивало операционную сложность и вносило задержки на межузловую коммуникацию. AWS указывает, что G7e поддерживает запуск open-source моделей GPT-OSS-120B, Nemotron-3-Super-120B-A12B в варианте NVFP4 и Qwen3.5-35B-A3B на единственном узле.

Производительность инференса до 2,3× выше по сравнению с G6e при сетевой пропускной способности до 1600 Гбит/с.

Benchmark на модели Qwen3-32B (BF16) демонстрирует экономическую логику выбора между поколениями. G6e.12xlarge с четырьмя L40S при нагрузке C=32 выдаёт 686 токенов в секунду суммарно при стоимости $2,06 за миллион токенов и часовой ставке $13,12. G7e.2xlarge с одним RTX PRO 6000 при той же нагрузке генерирует 592 токена в секунду при стоимости $0,79 за миллион токенов и ставке $4,20/ч. Снижение стоимости — 2,6× — достигается за счёт отсутствия накладных расходов на межкарточную синхронизацию: при tensor parallelism degree 1 нет операций all-reduce на каждом слое трансформера, нет фрагментации KV-кеша между GPU и нет узкого места NVLink. Латентность при росте нагрузки с C=1 до C=32 увеличивается на 22% (с 27,2 до 33,2 с) против 62% у G6e (с 16,1 до 26,0 с) — поведение под нагрузкой предсказуемее.

Для задач с жёсткими требованиями к латентности при низкой конкурентности G6e по-прежнему быстрее на отдельный запрос: четыре параллельных GPU обрабатывают запрос за 16,1 с против 27,2 с у одиночного G7e. Однако для производственных систем, где важна стоимость токена при высокой нагрузке, G7e выигрывает. AWS также описывает совместное применение G7e со спекулятивным декодированием EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) — метод предсказывает несколько следующих токенов из внутренних представлений модели и верифицирует их за один прямой проход, что даёт дополнительный прирост производительности поверх аппаратных улучшений.

G7e поддерживает FP4-точность через Tensor Cores пятого поколения — это позволяет запускать квантизованные варианты крупных моделей с меньшими потерями качества, чем при INT8. Среди заявленных сценариев — чат-боты и диалоговые системы, RAG-пайплайны с быстрой инъекцией контекста из векторных хранилищ, генерация и суммаризация длинных документов (96 ГБ памяти вмещают большие KV-кеши для расширенного контекста), мультимодальные модели и задачи физического ИИ, включая цифровые двойники и 3D-симуляции.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме