GR00T N1.7 построена на идее, что человеческое видео — более масштабируемый источник обучающих данных для роботов, чем телеоперация. Вместо того чтобы вручную демонстрировать каждое движение на физическом устройстве, NVIDIA обучила модель на 20 854 часах эгоцентричной съёмки: люди выполняли задачи на производстве, в ритейле, здравоохранении и домашней среде. Камеры фиксировали вид от первого лица, движения запястий и положение пальцев.

Логика здесь проста: у людей и роботов-гуманоидов схожая структура — две руки, вид от первого лица, один и тот же физический мир. Модель усваивает манипуляционные паттерны из человеческого опыта, а не заново открывает их через тысячи часов управления роботом оператором. Ключевой результат этого подхода — обнаруженный закон масштабирования ловкости: рост объёма данных с 1 000 до 20 000 часов предсказуемо и более чем вдвое улучшает среднюю успешность выполнения задач. Это первый подобный закон, зафиксированный для роботизированной манипуляции.

Архитектурно GR00T N1.7 реализует схему Action Cascade — двухуровневую систему. Верхний уровень (System 2) — языковая модель Cosmos-Reason2-2B, которая обрабатывает изображения и текстовые инструкции, декомпозирует задачу на подзадачи и формирует высокоуровневые токены действий. Нижний уровень (System 1) — 32-слойный диффузионный трансформер, который принимает эти токены вместе с текущим состоянием робота и в реальном времени преобразует их в точные команды для моторов. Такое разделение позволяет модели справляться с многошаговыми задачами, где требуется и планирование, и тонкая моторика — например, сборка мелких деталей.

Модель обучена на 20 854 часах эгоцентричного видео людей — в разы больше, чем данные телеоперации роботов.

GR00T N1.7 — bimanual tabletop task
GR00T N1.7 — bimanual tabletop task · Источник: Hugging Face Blog

Модель валидирована на нескольких платформах: Unitree G1, Bimanual Manipulator YAM и AGIBot Genie 1 — и охватывает задачи от манипуляций на столе до двуручных операций. Поддерживаются руки с 22 степенями свободы, что открывает контактно-насыщенные сценарии: упаковка, сортировка, инспекция — именно те операции, с которыми обобщённые роботизированные модели традиционно справлялись плохо.

Для разработчиков предусмотрена тонкая настройка под собственного робота через формат датасетов LeRobot. Среди предрегистрированных платформ — UNITREE_G1, LIBERO_PANDA, OXE_WIDOWX; можно зарегистрировать и произвольную конфигурацию. Пользователи предыдущей версии N1.6 могут перейти на N1.7 заменой одного параметра пути к модели — остальные конфигурации совместимы. Модель работает на GPU-архитектурах NVIDIA начиная с Ampere, включая Hopper, Lovelace, Blackwell и Jetson. Код и веса опубликованы на GitHub и Hugging Face под коммерческой лицензией.