NVIDIA выпустила GR00T N1.7 — открытую модель управления гуманоидными роботами

Подготовлено редакцией Malakhov AI

Hugging Face Blog·17 апр.·2 минИсследованияКод

GR00T N1.7 — модель на 3 миллиарда параметров, обученная на 20 854 часах видео от первого лица, — доступна на Hugging Face и GitHub с коммерческой лицензией. Она управляет гуманоидными роботами через комбинацию языковых инструкций и визуальных данных, не требуя массовой телеоперации для обучения.

Кратко

—GR00T N1.7 — открытая VLA-модель на 3B параметров с коммерческой лицензией для промышленного применения.
—Модель обучена на 20 854 часах эгоцентричного видео людей — в разы больше, чем данные телеоперации роботов.
—Увеличение объёма данных с 1 000 до 20 000 часов более чем вдвое повышает успешность выполнения задач.
—Архитектура Action Cascade разделяет высокоуровневое рассуждение и низкоуровневое управление моторикой.
—Поддерживается тонкая настройка под конкретного робота через формат датасетов LeRobot.

Глоссарий · 7 терминов▾

VLA (Vision-Language-Action): Класс моделей, которые принимают на вход изображения и текстовые инструкции и выдают команды для физических действий робота.
Action Cascade: Двухуровневая архитектура GR00T N1.7, где языковая модель отвечает за планирование, а диффузионный трансформер — за генерацию точных моторных команд.
Диффузионный трансформер (DiT): Нейросетевая архитектура, которая итеративно «очищает» зашумлённый сигнал, применяемая здесь для генерации плавных траекторий движения робота.
Телеоперация: Метод сбора обучающих данных, при котором человек-оператор управляет роботом в реальном времени, демонстрируя нужные движения.
Эгоцентричное видео: Видеозапись от первого лица — с камеры, закреплённой на голове или теле человека, выполняющего задачу.
LeRobot: Открытый формат датасетов для обучения роботов, разработанный Hugging Face и ставший стандартом для обмена обучающими данными в сообществе.
Степени свободы (DoF): Количество независимых осей движения в механической системе; для роботизированной руки с 22 DoF это означает возможность очень точных и разнообразных манипуляций.

GR00T N1.7 построена на идее, что человеческое видео — более масштабируемый источник обучающих данных для роботов, чем телеоперация. Вместо того чтобы вручную демонстрировать каждое движение на физическом устройстве, NVIDIA обучила модель на 20 854 часах эгоцентричной съёмки: люди выполняли задачи на производстве, в ритейле, здравоохранении и домашней среде. Камеры фиксировали вид от первого лица, движения запястий и положение пальцев.

Логика здесь проста: у людей и роботов-гуманоидов схожая структура — две руки, вид от первого лица, один и тот же физический мир. Модель усваивает манипуляционные паттерны из человеческого опыта, а не заново открывает их через тысячи часов управления роботом оператором. Ключевой результат этого подхода — обнаруженный закон масштабирования ловкости: рост объёма данных с 1 000 до 20 000 часов предсказуемо и более чем вдвое улучшает среднюю успешность выполнения задач. Это первый подобный закон, зафиксированный для роботизированной манипуляции.

Архитектурно GR00T N1.7 реализует схему Action Cascade — двухуровневую систему. Верхний уровень (System 2) — языковая модель Cosmos-Reason2-2B, которая обрабатывает изображения и текстовые инструкции, декомпозирует задачу на подзадачи и формирует высокоуровневые токены действий. Нижний уровень (System 1) — 32-слойный диффузионный трансформер, который принимает эти токены вместе с текущим состоянием робота и в реальном времени преобразует их в точные команды для моторов. Такое разделение позволяет модели справляться с многошаговыми задачами, где требуется и планирование, и тонкая моторика — например, сборка мелких деталей.

Модель обучена на 20 854 часах эгоцентричного видео людей — в разы больше, чем данные телеоперации роботов.

GR00T N1.7 — bimanual tabletop task · Источник: Hugging Face Blog

Модель валидирована на нескольких платформах: Unitree G1, Bimanual Manipulator YAM и AGIBot Genie 1 — и охватывает задачи от манипуляций на столе до двуручных операций. Поддерживаются руки с 22 степенями свободы, что открывает контактно-насыщенные сценарии: упаковка, сортировка, инспекция — именно те операции, с которыми обобщённые роботизированные модели традиционно справлялись плохо.

Для разработчиков предусмотрена тонкая настройка под собственного робота через формат датасетов LeRobot. Среди предрегистрированных платформ — UNITREE_G1, LIBERO_PANDA, OXE_WIDOWX; можно зарегистрировать и произвольную конфигурацию. Пользователи предыдущей версии N1.6 могут перейти на N1.7 заменой одного параметра пути к модели — остальные конфигурации совместимы. Модель работает на GPU-архитектурах NVIDIA начиная с Ampere, включая Hopper, Lovelace, Blackwell и Jetson. Код и веса опубликованы на GitHub и Hugging Face под коммерческой лицензией.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Читать дальше

Samsung и SK Hynix инвестируют $590 млрд в чипы для ИИ на фоне роста цен на память

Исследования

The Decoder·7 часов назад

Samsung и SK Hynix инвестируют $590 млрд в чипы для ИИ на фоне роста цен на память

NYT обвинила Microsoft в создании суперкомпьютера для нарушения авторских прав

Исследования

Ars Technica·2 дня назад

NYT обвинила Microsoft в создании суперкомпьютера для нарушения авторских прав

Habr AI·5 часов назад

Визуальный конструктор правил для ИИ-кодинга: как бороться с потерей контекста в TRAE

Продолжить по разделам