Amazon SageMaker ИИ и NVIDIA выпустили совместное решение для обучения роботов с подкреплением (RL) в симуляции. Разработчики могут тренировать политики для робота-гуманоида Unitree H1 с помощью NVIDIA Isaac Lab на инфраструктуре SageMaker, используя два режима вычислений: SageMaker HyperPod и SageMaker Training Jobs. Полный код доступен в репозитории GitHub.

Физический ИИ всё чаще переходит из лабораторий на производство, но обучение роботов в реальном мире остаётся медленным, дорогим и небезопасным. GPU-ускоренная симуляция, напротив, сжимает месяцы опыта в часы. Однако тренировка сложных поведений, таких как ходьба гуманоида по неровной поверхности, требует значительных вычислительных ресурсов — один запуск на одной ноде может длиться от нескольких часов до суток. Командам робототехников необходимо быстро итерировать во время исследования и одновременно выполнять длительные продакшен-запуски без операционной нагрузки по управлению кластерами.

ПараметрSageMaker HyperPodSageMaker Training Jobs
НазначениеДлительные продакшен-запускиКороткие итеративные эксперименты
Управление кластеромПостоянный кластер (EKS/Slurm)Эфемерные инстансы по запросу
ОтказоустойчивостьАвтоматическое восстановление и рестарт с чекпойнтаНет (задача перезапускается при сбое)
Стоимость простояЕсть (кластер активен между запусками)Нет (ресурсы освобождаются после задачи)
МониторингВстроенные метрики в Prometheus/GrafanaЛоги в CloudWatch

SageMaker HyperPod — это управляемая инфраструктура для распределённого обучения, оптимизированная для масштабных задач. Она включает агента мониторинга здоровья на каждой ноде, автоматическую замену отказавших экземпляров и возобновление тренировки с последнего чекпойнта. Кластеры оркеструются через Amazon EKS или Slurm, а метрики GPU, памяти и сети отправляются в Amazon Managed Service for Prometheus и визуализируются в Grafana. Администраторы могут настраивать квоты на ресурсы (GPU, vCPU, память) по пространствам имён с помощью Kueue.

SageMaker HyperPod обеспечивает отказоустойчивость и автоматическое восстановление после сбоев для многодневных RL-тренировок.

NVIDIA Isaac Lab simulation showing humanoid robots training in parallel environments
NVIDIA Isaac Lab simulation showing humanoid robots training in parallel environments · Источник: AWS Machine Learning Blog

SageMaker Training Jobs предоставляет эфемерные вычислительные ресурсы по запросу. Каждый запуск выделяет GPU-инстансы, выполняет скрипт в контейнере и завершает работу, загружая артефакты в S3. Между запусками нет затрат на простой, что идеально для коротких экспериментов и перебора гиперпараметров.

NVIDIA Isaac Lab — это фреймворк с открытым исходным кодом, построенный на Isaac Sim. Он использует GPU-параллелизм для симуляции тысяч роботов одновременно на одной или нескольких видеокартах. В примере из поста задача Isaac-Velocity-Rough-H1-v0: робот Unitree H1 учится отслеживать команды скорости при ходьбе по пересечённой местности. Структурированные API фреймворка упрощают задание пространств наблюдений и действий, функций вознаграждения и циклов обучения.