Nvidia научила роботов самостоятельно улучшать навыки через ИИ-агентов

Подготовлено редакцией Malakhov AI

The Decoder·17 июн.·3 минИсследованияИндустрия

Исследователи Nvidia, Carnegie Mellon University и UC Berkeley создали систему ENPIRE, в которой восемь роботов-манипуляторов обучаются без участия человека — ИИ-агенты сами пишут код, формулируют гипотезы и обмениваются результатами через Git. На ряде задач точность достигает 99%.

Кратко

—Система ENPIRE использует ИИ-агентов для автономного написания кода обучения роботов прямо на реальном железе.
—Флот из восьми двурукихроботов YAM координируется через Git — агенты делятся удачными стратегиями и отбрасывают неудачные.
—На задаче Push-T восемь агентов достигли результата за 2 часа против 5 часов при работе одного агента.
—Реальный мир оказался значительно сложнее симуляции: два из трёх агентов провалили Push-T в физической среде.
—Рост флота снижает утилизацию каждого робота, а токен-затраты растут быстрее, чем ускорение обучения.

Видео по теме

Видео по теме · Источник: The Decoder

Глоссарий · 7 терминов▾

Behavior cloning: Метод обучения робота, при котором его стратегия напрямую копирует действия из записанных демонстраций человека.
Reinforcement learning: Обучение с подкреплением — подход, при котором агент улучшает стратегию через пробы и ошибки, получая сигнал о том, насколько успешно выполнено действие.
Reward function: Функция вознаграждения — математическое правило, которое оценивает каждое действие робота как успешное или неудачное и направляет процесс обучения.
Git: Стандартная система контроля версий для кода, позволяющая нескольким участникам работать с одной кодовой базой и отслеживать изменения.
Mean Robot Utilization (MRU): Метрика, показывающая, какую долю исследовательского времени робот фактически проводит в работе, а не в ожидании.
Mean Token Utilization (MTU): Метрика, измеряющая расход токенов языковой модели на минуту работы системы.
Push-T test: Стандартный тест для роботов-манипуляторов: робот должен сдвинуть Т-образный блок в заданную позицию и ориентацию.

Захват и манипуляция объектами — одна из самых трудоёмких задач в робототехнике. До сих пор каждый цикл обучения требовал участия человека: собрать данные, сбросить сцену после попытки, подправить алгоритм. Система ENPIRE, разработанная совместно Nvidia, Carnegie Mellon University и UC Berkeley, переносит всю эту работу на ИИ-агентов, которые действуют прямо на реальном железе.

Система работает в два этапа. На первом агент при минимальном участии человека настраивает рабочую среду: задаёт границы безопасности, организует автоматический сброс сцены и пишет собственную функцию оценки успеха. Для этого ему достаточно нескольких минут видео с примерами удачных и неудачных попыток. Для задачи вставки штырька агент разработал проверку, объединяющую визуальное выравнивание, высоту захвата и оценку усилия. Для застёгивания кабельной стяжки — совместил два ракурса камер и добился времени реакции ниже 150 миллисекунд. Эти инструменты создаются один раз и затем используются без изменений.

Задача	1 агент	8 агентов
Push-T	~5 часов	~2 часа
Вставка штырька	>90 минут	~40 минут

На втором этапе агент работает полностью автономно: читает научные статьи, формулирует гипотезы и напрямую редактирует обучающий код. Он сам выбирает между клонированием поведения (стратегия копирует демонстрации человека) и обучением с подкреплением (стратегия улучшается через пробы и ошибки) — в зависимости от сигналов успеха в реальном мире.

Флот из восьми двурукихроботов YAM координируется через Git — агенты делятся удачными стратегиями и отбрасывают неудачные.

Для масштабирования ENPIRE развёртывается на флоте из восьми двуруких роботов YAM, каждый со своим компьютером и агентом. Агенты тестируют разные гипотезы параллельно и обмениваются результатами исключительно через Git — стандартную систему контроля версий для кода. Удачная стратегия, найденная на одной станции, автоматически распространяется на весь флот. На задаче Push-T — где робот должен сдвинуть Т-образный блок в заданную позицию — восемь агентов достигли полного успеха за два часа против пяти при работе одного. Для вставки штырька время сократилось с более чем 90 минут до примерно 40.

Исследователи протестировали три актуальных ИИ-агента для написания кода: Codex на базе GPT-5.5, Claude Code на базе Opus 4.7 и Kimi Code на базе Kimi K2.6. Codex показал лучшие результаты в большинстве сценариев. Навыки также переносятся между задачами: опыт вставки штырька помог агентам установить GPU в материнскую плату.

Однако реальный мир остаётся значительно сложнее симуляции. На задаче Push-T все три агента справились в виртуальной среде, но два из трёх потерпели неудачу на физическом роботе — из-за непредсказуемой динамики, трения и движения объектов. Авторы честно фиксируют и экономические ограничения: роботы и вычислительные ресурсы используются неэффективно, поскольку агенты тратят много времени на чтение логов и ожидание. С ростом флота утилизация каждого робота падает, а токен-затраты растут быстрее, чем ускорение обучения. Для измерения этих параметров исследователи предложили две метрики: Mean Robot Utilization (MRU) и Mean Token Utilization (MTU).

Для отрасли ENPIRE обозначает направление, в котором роботизированные системы могут постепенно выходить из-под постоянного надзора операторов. Пока это исследовательский прототип с явными ограничениями по стоимости вычислений и надёжности в физической среде, но сама архитектура — автономный исследовательский цикл на реальном железе с координацией через стандартные инструменты разработки — представляет собой практически воспроизводимый шаблон для дальнейших экспериментов.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ