На Amazon SageMaker AI стали доступны инстансы G7e, оснащённые GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Конфигурации включают 1, 2, 4 и 8 карт; каждая несёт 96 ГБ GDDR7-памяти с пропускной способностью 1597 ГБ/с. Максимальная конфигурация — g7e.48xlarge с 8 GPU — аккумулирует 768 ГБ видеопамяти и поддерживает сетевой интерфейс EFA на скорости 1600 Гбит/с.

Для понимания масштаба изменений полезно сравнение поколений. У G5 (NVIDIA A10G) на каждую карту приходилось 24 ГБ GDDR6-памяти и 600 ГБ/с пропускной способности, у G6e (NVIDIA L40S) — 48 ГБ и 864 ГБ/с. G7e удваивает эти показатели относительно G6e и учетверяет относительно G5. Сетевая пропускная способность выросла с 400 Гбит/с у G6e до 1600 Гбит/с у G7e — рост в четыре раза. Это принципиально меняет возможности многоузловых сценариев: задержки при обмене данными между GPU снижаются настолько, что распределённый инференс и дообучение крупных моделей становятся практически применимыми на G-серии.

SpecG5 (g5.48xlarge)G6e (g6e.48xlarge)G7e (g7e.48xlarge)
GPU8x NVIDIA A10G8x NVIDIA L40S8x NVIDIA RTX PRO 6000 Blackwell
GPU Memory per GPU24 GB GDDR648 GB GDDR696 GB GDDR7
Total GPU Memory192 GB384 GB768 GB
GPU Memory Bandwidth600 GB/s per GPU864 GB/s per GPU1,597 GB/s per GPU
vCPUs192192192
System Memory768 GiB1,536 GiB2,048 GiB
Network Bandwidth100 Gbps400 Gbps1,600 Gbps (EFA)
Local NVMe Storage7.6 TB7.6 TB15.2 TB
Inference vs. G6eBaseline~1xUp to 2.3x

Ключевое следствие роста памяти — изменение порогов для размещения моделей. На одном инстансе G7e.2xlarge в формате FP16 помещается модель с 35 млрд параметров, на четырёх GPU — до 150 млрд, на восьми — до 300 млрд. Ранее модели такого масштаба требовали многоузловых кластеров на G5 или G6e, что увеличивало операционную сложность и вносило задержки на межузловую коммуникацию. AWS указывает, что G7e поддерживает запуск open-source моделей GPT-OSS-120B, Nemotron-3-Super-120B-A12B в варианте NVFP4 и Qwen3.5-35B-A3B на единственном узле.

Производительность инференса до 2,3× выше по сравнению с G6e при сетевой пропускной способности до 1600 Гбит/с.

AWS запустила G7e-инстансы на SageMaker с GPU NVIDIA RTX PRO 6000 Blackwell
· Источник: AWS Machine Learning Blog

Benchmark на модели Qwen3-32B (BF16) демонстрирует экономическую логику выбора между поколениями. G6e.12xlarge с четырьмя L40S при нагрузке C=32 выдаёт 686 токенов в секунду суммарно при стоимости $2,06 за миллион токенов и часовой ставке $13,12. G7e.2xlarge с одним RTX PRO 6000 при той же нагрузке генерирует 592 токена в секунду при стоимости $0,79 за миллион токенов и ставке $4,20/ч. Снижение стоимости — 2,6× — достигается за счёт отсутствия накладных расходов на межкарточную синхронизацию: при tensor parallelism degree 1 нет операций all-reduce на каждом слое трансформера, нет фрагментации KV-кеша между GPU и нет узкого места NVLink. Латентность при росте нагрузки с C=1 до C=32 увеличивается на 22% (с 27,2 до 33,2 с) против 62% у G6e (с 16,1 до 26,0 с) — поведение под нагрузкой предсказуемее.

Для задач с жёсткими требованиями к латентности при низкой конкурентности G6e по-прежнему быстрее на отдельный запрос: четыре параллельных GPU обрабатывают запрос за 16,1 с против 27,2 с у одиночного G7e. Однако для производственных систем, где важна стоимость токена при высокой нагрузке, G7e выигрывает. AWS также описывает совместное применение G7e со спекулятивным декодированием EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) — метод предсказывает несколько следующих токенов из внутренних представлений модели и верифицирует их за один прямой проход, что даёт дополнительный прирост производительности поверх аппаратных улучшений.

G7e поддерживает FP4-точность через Tensor Cores пятого поколения — это позволяет запускать квантизованные варианты крупных моделей с меньшими потерями качества, чем при INT8. Среди заявленных сценариев — чат-боты и диалоговые системы, RAG-пайплайны с быстрой инъекцией контекста из векторных хранилищ, генерация и суммаризация длинных документов (96 ГБ памяти вмещают большие KV-кеши для расширенного контекста), мультимодальные модели и задачи физического ИИ, включая цифровые двойники и 3D-симуляции.