Amazon SageMaker ИИ и NVIDIA выпустили совместное решение для обучения роботов с подкреплением (RL) в симуляции. Разработчики могут тренировать политики для робота-гуманоида Unitree H1 с помощью NVIDIA Isaac Lab на инфраструктуре SageMaker, используя два режима вычислений: SageMaker HyperPod и SageMaker Training Jobs. Полный код доступен в репозитории GitHub.
Физический ИИ всё чаще переходит из лабораторий на производство, но обучение роботов в реальном мире остаётся медленным, дорогим и небезопасным. GPU-ускоренная симуляция, напротив, сжимает месяцы опыта в часы. Однако тренировка сложных поведений, таких как ходьба гуманоида по неровной поверхности, требует значительных вычислительных ресурсов — один запуск на одной ноде может длиться от нескольких часов до суток. Командам робототехников необходимо быстро итерировать во время исследования и одновременно выполнять длительные продакшен-запуски без операционной нагрузки по управлению кластерами.
| Параметр | SageMaker HyperPod | SageMaker Training Jobs |
|---|---|---|
| Назначение | Длительные продакшен-запуски | Короткие итеративные эксперименты |
| Управление кластером | Постоянный кластер (EKS/Slurm) | Эфемерные инстансы по запросу |
| Отказоустойчивость | Автоматическое восстановление и рестарт с чекпойнта | Нет (задача перезапускается при сбое) |
| Стоимость простоя | Есть (кластер активен между запусками) | Нет (ресурсы освобождаются после задачи) |
| Мониторинг | Встроенные метрики в Prometheus/Grafana | Логи в CloudWatch |
SageMaker HyperPod — это управляемая инфраструктура для распределённого обучения, оптимизированная для масштабных задач. Она включает агента мониторинга здоровья на каждой ноде, автоматическую замену отказавших экземпляров и возобновление тренировки с последнего чекпойнта. Кластеры оркеструются через Amazon EKS или Slurm, а метрики GPU, памяти и сети отправляются в Amazon Managed Service for Prometheus и визуализируются в Grafana. Администраторы могут настраивать квоты на ресурсы (GPU, vCPU, память) по пространствам имён с помощью Kueue.
SageMaker HyperPod обеспечивает отказоустойчивость и автоматическое восстановление после сбоев для многодневных RL-тренировок.

SageMaker Training Jobs предоставляет эфемерные вычислительные ресурсы по запросу. Каждый запуск выделяет GPU-инстансы, выполняет скрипт в контейнере и завершает работу, загружая артефакты в S3. Между запусками нет затрат на простой, что идеально для коротких экспериментов и перебора гиперпараметров.
NVIDIA Isaac Lab — это фреймворк с открытым исходным кодом, построенный на Isaac Sim. Он использует GPU-параллелизм для симуляции тысяч роботов одновременно на одной или нескольких видеокартах. В примере из поста задача Isaac-Velocity-Rough-H1-v0: робот Unitree H1 учится отслеживать команды скорости при ходьбе по пересечённой местности. Структурированные API фреймворка упрощают задание пространств наблюдений и действий, функций вознаграждения и циклов обучения.



