NVIDIA и партнёры научили ИИ-агентов самостоятельно обучать роботов

Подготовлено редакцией Malakhov AI

Ars Technica·17 июн.·2 минИсследования

Фреймворк ENPIRE, разработанный в лаборатории NVIDIA GEAR совместно с Carnegie Mellon и UC Berkeley, позволяет ИИ-агентам без участия человека составлять программы обучения роботов — и уже научил манипуляторы вставлять GPU в материнские платы и резать стяжки.

Кратко

—ENPIRE — агентный фреймворк из четырёх модулей: сброс задач, уточнение политик, параллельная оценка на нескольких роботах и анализ сбоев.
—Систему тестировали три агента: OpenAI Codex на GPT-5.5, Anthropic Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6.
—Агенты самостоятельно разрабатывали алгоритмы, проверяли их на реальных роботах и сохраняли только те изменения, которые повышали общий процент успеха.
—Директор по ИИ NVIDIA Джим Фэн сообщил, что лаборатория «самосовершенствуется ночью» — утром команда читает отчёты.
—Исходный код планируется открыть, чтобы любой мог развернуть «самоуправляемую роботизированную лабораторию дома».

Глоссарий · 5 терминов▾

агентный фреймворк (agent harness): Программная оболочка вокруг языковой модели, которая даёт ей доступ к инструментам, памяти, контексту и механизмам обратной связи — превращая модель в автономного агента.
политика (policy): В робототехнике — функция или нейросеть, которая на основе наблюдений за средой выдаёт команды для действий робота.
обучение с подкреплением (reinforcement learning): Метод машинного обучения, при котором агент учится через пробы и ошибки, получая сигнал вознаграждения за успешные действия.
токенный бюджет: Ограничение на количество токенов (единиц текста), которые языковая модель может обработать за один сеанс; напрямую влияет на стоимость запуска агента.
open-source: Модель распространения программного обеспечения с открытым исходным кодом, доступным для изучения, изменения и использования.

16 июня 2026 года исследователи лаборатории NVIDIA GEAR опубликовали статью с описанием ENPIRE — агентного фреймворка, который передаёт управление циклом обучения роботов непосредственно ИИ-агентам. Система уже показала, что роботизированные манипуляторы способны освоить задачи с высокой точностью позиционирования: вставку GPU в разъёмы на материнской плате и перерезание пластиковых стяжек.

Проблема, которую решает ENPIRE, хорошо известна в робототехнике: обучение с подкреплением на физических роботах требует непрерывного человеческого надзора. Инженер должен сбрасывать сцену после каждой попытки, проверять корректность выполнения задачи, корректировать алгоритм и следить за тем, чтобы параллельные эксперименты не конфликтовали. Это делает масштабирование дорогим и медленным. ENPIRE переносит всю эту работу на агентов.

ИИ-агент	Модель	Разработчик
OpenAI Codex	GPT-5.5	OpenAI
Claude Code	Opus 4.7	Anthropic
Kimi Code	Kimi K2.6	Moonshot AI

Фреймворк состоит из четырёх модулей. Первый отвечает за автоматический сброс и верификацию задач — то, что раньше делал техник. Второй уточняет политики, управляющие поведением робота. Третий запускает параллельную оценку на нескольких физических роботах одновременно. Четвёртый анализирует логи сбоев, при необходимости обращается к научным статьям и вносит правки в код тренировочной инфраструктуры и алгоритмов. Цикл повторяется автономно: агент сам решает, какие изменения оставить, опираясь на динамику общего процента успеха.

Систему тестировали три агента: OpenAI Codex на GPT-5.5, Anthropic Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6.

Listing image for first story in Most Read: Anthropic "pauses" token-based billing for its Claude Agent SDK · Источник: Ars Technica

Для тестирования исследователи запустили три независимые команды агентов на базе разных моделей: OpenAI Codex с GPT-5.5, Anthropic Claude Code с Opus 4.7 и Moonshot ИИ Kimi Code с Kimi K2.6. Каждая команда разрабатывала собственный алгоритмический подход, проверяла его на реальном железе и итерировала. Авторы подчёркивают, что агентам был выделен «щедрый токенный бюджет» — это указывает на то, что стоимость вычислений пока остаётся существенным ограничением при масштабировании подхода.

Джим Фэн, директор по ИИ NVIDIA, описал происходящее в LinkedIn без лишней скромности: «Часть нашей лаборатории NVIDIA GEAR теперь неустанно самосовершенствуется по ночам. Утром мы просто читаем отчёты». Параллельно он пошутил, что цель такой автоматизации — уйти в отпуск так, чтобы CEO Дженсен Хуанг ничего не заметил.

Для отрасли это исследование обозначает направление, в котором движется роботехника: от ручного курирования экспериментов к полностью автономным лабораториям. Ключевое ограничение сегодня — стоимость токенов и необходимость физической инфраструктуры. Тем не менее команда намерена открыть исходный код ENPIRE, что позволит независимым исследователям и энтузиастам развернуть аналогичные установки самостоятельно. Если подход окажется воспроизводимым за пределами хорошо оснащённой корпоративной лаборатории, темп накопления данных для обучения роботов может существенно вырасти.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ