AWS предлагает два инструмента для резервирования GPU на короткий срок

AWS Machine Learning Blog·6 дней назад·3 минЛабораторииКод

EC2 Capacity Blocks for ML и SageMaker training plans позволяют зарезервировать GPU-мощности на срок от 1 до 182 дней со скидкой 40–75% к on-demand ценам. Оба инструмента решают одну проблему — дефицит GPU-ресурсов, но рассчитаны на разные сценарии работы.

Кратко

—EC2 Capacity Blocks дают скидку 40–50% к on-demand: p5.48xlarge — $34.61/ч против $55.04/ч.
—SageMaker training plans дешевле on-demand на 70–75% и управляют инфраструктурой автоматически.
—Capacity Blocks можно бронировать за 8 недель, длительность — от 1 дня до 26 недель.
—Один Capacity Block вмещает до 64 инстансов; через AWS Organizations — до 256 одновременно.
—Два инструмента не взаимозаменяемы: Capacity Blocks работают только с EC2, не с SageMaker.

Глоссарий · 7 терминов▾

EC2 Capacity Blocks for ML: Механизм AWS для предварительного резервирования GPU-инстансов Amazon EC2 на конкретный временной промежуток с фиксированной ценой ниже on-demand.
SageMaker training plans: Инструмент резервирования GPU-мощностей внутри управляемой платформы Amazon SageMaker, где AWS самостоятельно занимается провизионингом и жизненным циклом инстансов.
On-demand инстанс: Виртуальная машина в облаке, которая запускается по запросу без предварительного бронирования и тарифицируется по часам фактического использования.
Spot-инстанс: Виртуальная машина на основе незадействованных мощностей AWS с существенной скидкой, которая может быть принудительно остановлена провайдером при росте спроса.
ODCR (On-Demand Capacity Reservation): Резервирование вычислительной ёмкости AWS без предоплаты, но по on-demand ценам; подходит для стабильных нагрузок с предсказуемым потреблением.
AWS Organizations: Сервис AWS для централизованного управления несколькими аккаунтами внутри одной организации, позволяющий в том числе распределять зарезервированные ресурсы между командами.
HyperPod: Управляемый сервис Amazon SageMaker для создания распределённых кластеров под задачи обучения больших моделей с автоматическим восстановлением при сбоях.

Дефицит GPU-мощностей стал одной из главных операционных проблем для ML-команд: спрос на ускорители для обучения и инференса устойчиво опережает предложение. AWS описала два инструмента, которые позволяют зафиксировать доступ к GPU-инстансам на конкретный временной промежуток — EC2 Capacity Blocks for ML и SageMaker training plans.

EC2 Capacity Blocks for ML — это механизм резервирования GPU-мощностей непосредственно на уровне виртуальных машин Amazon EC2. Пользователь сам управляет операционной системой, сетью и оркестрацией. Бронирование открывается за восемь недель до старта; минимальная длительность — один день, максимальная — 182 дня (с шагом 7 дней для периодов свыше двух недель). В одном блоке можно зарезервировать до 64 инстансов, а через механизм AWS Organizations — до 256 инстансов одновременно на одну дату, если задействовать минимум четыре блока. Поддерживаемые семейства инстансов — P5, Trn1 и Trn2. Стоимость фиксируется в момент покупки и не меняется, даже если к моменту старта резервирования AWS скорректирует прайс. Скидка к on-demand составляет 40–50%: например, p5.48xlarge в регионе US East (N. Virginia) обходится в $34.61/ч против $55.04/ч по on-demand.

Параметр	EC2 Capacity Blocks	SageMaker training plans	On-demand	Spot
Скидка к on-demand	40–50%	70–75%	—	до 90%
Гарантия доступности	Да	Да	Нет	Нет
Управление инфраструктурой	Пользователь	AWS	Пользователь	Пользователь
Среда	EC2	SageMaker	EC2 / SageMaker	EC2
Максимальный срок	182 дня	Не указан	—	—
Предоплата	Да	Да	Нет	Нет
Риск прерывания	Нет	Нет	Нет	Да

SageMaker training plans работают иначе: они предназначены для рабочих нагрузок внутри управляемой среды Amazon SageMaker — тренировочных заданий, кластеров HyperPod и инференса. Пользователь не занимается провизионингом инстансов вручную — SageMaker берёт это на себя. Скидка здесь выше: 70–75% к on-demand. Поддерживаются NVIDIA GPU и ускорители AWS Trainium; G-type инстансы (кроме G6) пока недоступны. Два инструмента не взаимозаменяемы: Capacity Blocks нельзя использовать с SageMaker-managed инстансами вроде ml.p4dn или ml.p5, а SageMaker training plans не применимы к прямым EC2-инстансам.

SageMaker training plans дешевле on-demand на 70–75% и управляют инфраструктурой автоматически.

AWS Workload Evaluation Decision Tree — A flowchart guiding users to choose between Amazon SageMaker AI and Amazon EC2 based on infrastructure preferences, GPU capacity needs, and resource availability. · Источник: AWS Machine Learning Blog

До появления этих инструментов основными вариантами были on-demand инстансы и spot-инстансы. On-demand удобны для разовых экспериментов, но не гарантируют доступность при повторном запуске — это вынуждает держать инстансы запущенными дольше необходимого. Spot-инстансы снижают затраты до 90%, однако могут быть прерваны в любой момент, что делает их пригодными только для задач с поддержкой чекпоинтов и повторного запуска. On-demand capacity reservations (ODCR) существовали и раньше, но краткосрочная доступность для GPU-инстансов типа P была ограничена, а без долгосрочного контракта они тарифицируются по on-demand ценам без какой-либо скидки.

При выборе между двумя новыми инструментами AWS рекомендует ориентироваться на три параметра: среду выполнения (EC2 напрямую или SageMaker), требуемую степень контроля над инфраструктурой и ценовую модель. Для производственных развёртываний или крупных мероприятий с высокой потребностью в GPU AWS советует начинать планирование минимум за три недели и привлекать аккаунт-менеджера. Оба инструмента требуют предоплаты, поэтому если инстансы не будут загружены на протяжении всего зарезервированного периода, итоговые расходы могут превысить стоимость on-demand.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

AWS раскрыл архитектуру инфраструктуры для обучения и инференса больших моделей

Продолжить по разделам

AWS предлагает два инструмента для резервирования GPU на короткий срок

Кратко

Читать также

Как дообучить LLM на данных Databricks Unity Catalog через Amazon SageMaker ИИ

claudeSearch: экономия 70% токенов Claude за счёт точечного доступа к коду

AWS раскрыл архитектуру инфраструктуры для обучения и инференса больших моделей