AWS и NVIDIA объединили SageMaker ИИ и Isaac Lab для масштабного обучения роботов

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·9 июн.·2 минЛабораторииКод

Amazon SageMaker ИИ и NVIDIA Isaac Lab позволяют обучать политики для робота-гуманоида Unitree H1 в GPU-ускоренной симуляции, сокращая месяцы реального опыта до часов. Решение предлагает два варианта вычислений: SageMaker HyperPod для длительных продакшен-запусков и SageMaker Training Jobs для итеративной разработки.

Кратко

—Физический ИИ переходит от исследований к промышленности, обучение в симуляции дешевле и безопаснее реального.
—SageMaker HyperPod обеспечивает отказоустойчивость и автоматическое восстановление после сбоев для многодневных RL-тренировок.
—SageMaker Training Jobs подходит для коротких экспериментов без затрат на простаивающие ресурсы.
—NVIDIA Isaac Lab использует GPU-параллелизм для запуска тысяч роботов одновременно в симуляции.
—Пример задачи — обучение Unitree H1 ходить по пересечённой местности с отслеживанием скорости.

Глоссарий · 5 терминов▾

RL (Reinforcement Learning): Обучение с подкреплением — метод машинного обучения, при котором агент учится принимать решения, получая вознаграждение за правильные действия.
SageMaker HyperPod: Управляемая инфраструктура AWS для распределённого обучения больших моделей с автоматическим восстановлением после сбоев.
SageMaker Training Jobs: Полностью управляемый сервис AWS для запуска контейнеризированных тренировочных задач по запросу без постоянной инфраструктуры.
Isaac Lab: Открытый фреймворк NVIDIA для обучения роботов с GPU-ускоренной симуляцией, основанный на Isaac Sim.
Kueue: Система управления очередями задач для Kubernetes, позволяющая устанавливать квоты и приоритеты на ресурсы.

Amazon SageMaker ИИ и NVIDIA выпустили совместное решение для обучения роботов с подкреплением (RL) в симуляции. Разработчики могут тренировать политики для робота-гуманоида Unitree H1 с помощью NVIDIA Isaac Lab на инфраструктуре SageMaker, используя два режима вычислений: SageMaker HyperPod и SageMaker Training Jobs. Полный код доступен в репозитории GitHub.

Физический ИИ всё чаще переходит из лабораторий на производство, но обучение роботов в реальном мире остаётся медленным, дорогим и небезопасным. GPU-ускоренная симуляция, напротив, сжимает месяцы опыта в часы. Однако тренировка сложных поведений, таких как ходьба гуманоида по неровной поверхности, требует значительных вычислительных ресурсов — один запуск на одной ноде может длиться от нескольких часов до суток. Командам робототехников необходимо быстро итерировать во время исследования и одновременно выполнять длительные продакшен-запуски без операционной нагрузки по управлению кластерами.

Параметр	SageMaker HyperPod	SageMaker Training Jobs
Назначение	Длительные продакшен-запуски	Короткие итеративные эксперименты
Управление кластером	Постоянный кластер (EKS/Slurm)	Эфемерные инстансы по запросу
Отказоустойчивость	Автоматическое восстановление и рестарт с чекпойнта	Нет (задача перезапускается при сбое)
Стоимость простоя	Есть (кластер активен между запусками)	Нет (ресурсы освобождаются после задачи)
Мониторинг	Встроенные метрики в Prometheus/Grafana	Логи в CloudWatch

SageMaker HyperPod — это управляемая инфраструктура для распределённого обучения, оптимизированная для масштабных задач. Она включает агента мониторинга здоровья на каждой ноде, автоматическую замену отказавших экземпляров и возобновление тренировки с последнего чекпойнта. Кластеры оркеструются через Amazon EKS или Slurm, а метрики GPU, памяти и сети отправляются в Amazon Managed Service for Prometheus и визуализируются в Grafana. Администраторы могут настраивать квоты на ресурсы (GPU, vCPU, память) по пространствам имён с помощью Kueue.

SageMaker HyperPod обеспечивает отказоустойчивость и автоматическое восстановление после сбоев для многодневных RL-тренировок.

NVIDIA Isaac Lab simulation showing humanoid robots training in parallel environments · Источник: AWS Machine Learning Blog

SageMaker Training Jobs предоставляет эфемерные вычислительные ресурсы по запросу. Каждый запуск выделяет GPU-инстансы, выполняет скрипт в контейнере и завершает работу, загружая артефакты в S3. Между запусками нет затрат на простой, что идеально для коротких экспериментов и перебора гиперпараметров.

NVIDIA Isaac Lab — это фреймворк с открытым исходным кодом, построенный на Isaac Sim. Он использует GPU-параллелизм для симуляции тысяч роботов одновременно на одной или нескольких видеокартах. В примере из поста задача Isaac-Velocity-Rough-H1-v0: робот Unitree H1 учится отслеживать команды скорости при ходьбе по пересечённой местности. Структурированные API фреймворка упрощают задание пространств наблюдений и действий, функций вознаграждения и циклов обучения.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

AWS и NVIDIA объединили SageMaker ИИ и Isaac Lab для масштабного обучения роботов

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений