Захват и манипуляция объектами — одна из самых трудоёмких задач в робототехнике. До сих пор каждый цикл обучения требовал участия человека: собрать данные, сбросить сцену после попытки, подправить алгоритм. Система ENPIRE, разработанная совместно Nvidia, Carnegie Mellon University и UC Berkeley, переносит всю эту работу на ИИ-агентов, которые действуют прямо на реальном железе.

Система работает в два этапа. На первом агент при минимальном участии человека настраивает рабочую среду: задаёт границы безопасности, организует автоматический сброс сцены и пишет собственную функцию оценки успеха. Для этого ему достаточно нескольких минут видео с примерами удачных и неудачных попыток. Для задачи вставки штырька агент разработал проверку, объединяющую визуальное выравнивание, высоту захвата и оценку усилия. Для застёгивания кабельной стяжки — совместил два ракурса камер и добился времени реакции ниже 150 миллисекунд. Эти инструменты создаются один раз и затем используются без изменений.

Задача1 агент8 агентов
Push-T~5 часов~2 часа
Вставка штырька>90 минут~40 минут

На втором этапе агент работает полностью автономно: читает научные статьи, формулирует гипотезы и напрямую редактирует обучающий код. Он сам выбирает между клонированием поведения (стратегия копирует демонстрации человека) и обучением с подкреплением (стратегия улучшается через пробы и ошибки) — в зависимости от сигналов успеха в реальном мире.

Флот из восьми двурукихроботов YAM координируется через Git — агенты делятся удачными стратегиями и отбрасывают неудачные.

Nvidia научила роботов самостоятельно улучшать навыки через ИИ-агентов
· Источник: The Decoder

Для масштабирования ENPIRE развёртывается на флоте из восьми двуруких роботов YAM, каждый со своим компьютером и агентом. Агенты тестируют разные гипотезы параллельно и обмениваются результатами исключительно через Git — стандартную систему контроля версий для кода. Удачная стратегия, найденная на одной станции, автоматически распространяется на весь флот. На задаче Push-T — где робот должен сдвинуть Т-образный блок в заданную позицию — восемь агентов достигли полного успеха за два часа против пяти при работе одного. Для вставки штырька время сократилось с более чем 90 минут до примерно 40.

Исследователи протестировали три актуальных ИИ-агента для написания кода: Codex на базе GPT-5.5, Claude Code на базе Opus 4.7 и Kimi Code на базе Kimi K2.6. Codex показал лучшие результаты в большинстве сценариев. Навыки также переносятся между задачами: опыт вставки штырька помог агентам установить GPU в материнскую плату.

Однако реальный мир остаётся значительно сложнее симуляции. На задаче Push-T все три агента справились в виртуальной среде, но два из трёх потерпели неудачу на физическом роботе — из-за непредсказуемой динамики, трения и движения объектов. Авторы честно фиксируют и экономические ограничения: роботы и вычислительные ресурсы используются неэффективно, поскольку агенты тратят много времени на чтение логов и ожидание. С ростом флота утилизация каждого робота падает, а токен-затраты растут быстрее, чем ускорение обучения. Для измерения этих параметров исследователи предложили две метрики: Mean Robot Utilization (MRU) и Mean Token Utilization (MTU).

Для отрасли ENPIRE обозначает направление, в котором роботизированные системы могут постепенно выходить из-под постоянного надзора операторов. Пока это исследовательский прототип с явными ограничениями по стоимости вычислений и надёжности в физической среде, но сама архитектура — автономный исследовательский цикл на реальном железе с координацией через стандартные инструменты разработки — представляет собой практически воспроизводимый шаблон для дальнейших экспериментов.