Захват и манипуляция объектами — одна из самых трудоёмких задач в робототехнике. До сих пор каждый цикл обучения требовал участия человека: собрать данные, сбросить сцену после попытки, подправить алгоритм. Система ENPIRE, разработанная совместно Nvidia, Carnegie Mellon University и UC Berkeley, переносит всю эту работу на ИИ-агентов, которые действуют прямо на реальном железе.
Система работает в два этапа. На первом агент при минимальном участии человека настраивает рабочую среду: задаёт границы безопасности, организует автоматический сброс сцены и пишет собственную функцию оценки успеха. Для этого ему достаточно нескольких минут видео с примерами удачных и неудачных попыток. Для задачи вставки штырька агент разработал проверку, объединяющую визуальное выравнивание, высоту захвата и оценку усилия. Для застёгивания кабельной стяжки — совместил два ракурса камер и добился времени реакции ниже 150 миллисекунд. Эти инструменты создаются один раз и затем используются без изменений.
| Задача | 1 агент | 8 агентов |
|---|---|---|
| Push-T | ~5 часов | ~2 часа |
| Вставка штырька | >90 минут | ~40 минут |
На втором этапе агент работает полностью автономно: читает научные статьи, формулирует гипотезы и напрямую редактирует обучающий код. Он сам выбирает между клонированием поведения (стратегия копирует демонстрации человека) и обучением с подкреплением (стратегия улучшается через пробы и ошибки) — в зависимости от сигналов успеха в реальном мире.
Флот из восьми двурукихроботов YAM координируется через Git — агенты делятся удачными стратегиями и отбрасывают неудачные.

Для масштабирования ENPIRE развёртывается на флоте из восьми двуруких роботов YAM, каждый со своим компьютером и агентом. Агенты тестируют разные гипотезы параллельно и обмениваются результатами исключительно через Git — стандартную систему контроля версий для кода. Удачная стратегия, найденная на одной станции, автоматически распространяется на весь флот. На задаче Push-T — где робот должен сдвинуть Т-образный блок в заданную позицию — восемь агентов достигли полного успеха за два часа против пяти при работе одного. Для вставки штырька время сократилось с более чем 90 минут до примерно 40.
Исследователи протестировали три актуальных ИИ-агента для написания кода: Codex на базе GPT-5.5, Claude Code на базе Opus 4.7 и Kimi Code на базе Kimi K2.6. Codex показал лучшие результаты в большинстве сценариев. Навыки также переносятся между задачами: опыт вставки штырька помог агентам установить GPU в материнскую плату.
Однако реальный мир остаётся значительно сложнее симуляции. На задаче Push-T все три агента справились в виртуальной среде, но два из трёх потерпели неудачу на физическом роботе — из-за непредсказуемой динамики, трения и движения объектов. Авторы честно фиксируют и экономические ограничения: роботы и вычислительные ресурсы используются неэффективно, поскольку агенты тратят много времени на чтение логов и ожидание. С ростом флота утилизация каждого робота падает, а токен-затраты растут быстрее, чем ускорение обучения. Для измерения этих параметров исследователи предложили две метрики: Mean Robot Utilization (MRU) и Mean Token Utilization (MTU).
Для отрасли ENPIRE обозначает направление, в котором роботизированные системы могут постепенно выходить из-под постоянного надзора операторов. Пока это исследовательский прототип с явными ограничениями по стоимости вычислений и надёжности в физической среде, но сама архитектура — автономный исследовательский цикл на реальном железе с координацией через стандартные инструменты разработки — представляет собой практически воспроизводимый шаблон для дальнейших экспериментов.
