NVIDIA Research представила три работы по физическому ИИ на CVPR 2025

Подготовлено редакцией Malakhov AI

NVIDIA Blog·3 июн.·2 минЛабораторииКод

На конференции CVPR 2025 NVIDIA Research представила три исследования, охватывающие роботизированный захват, эффективное рассуждение для автономного вождения и масштабное обучение виртуальных агентов. Объединяющая тема — обучение в масштабе, позволяющее системам обобщать на новые условия без переобучения.

Кратко

—GraspGen-X — первая фундаментальная модель для захвата объектов, обученная на 2 миллиардах симулированных захватов и работающая с любым манипулятором без дообучения.
—LCDrive заменяет текстовые цепочки рассуждений компактными латентными представлениями, сокращая количество токенов вдвое и ускоряя реакцию на бортовом оборудовании.
—NitroGen на базе архитектуры Isaac GR00T позволяет обучать воплощённых агентов в виртуальных средах, обобщая опыт на тысячи часов взаимодействия.

Видео по теме

Latent Chain-of-Thought World Modeling for End-to-End Driving · Источник: NVIDIA Blog

Глоссарий · 6 терминов▾

фундаментальная модель: Модель ИИ, обученная на больших объёмах данных и способная решать широкий круг задач без дообучения.
латентное представление: Сжатое внутреннее представление данных, используемое моделью ИИ для принятия решений, в отличие от явного текста.
цепочка рассуждений (chain-of-thought): Метод, при котором модель последовательно генерирует промежуточные шаги для улучшения логического вывода.
воплощённый агент: Агент ИИ, взаимодействующий с физической или симулированной средой через действия и сенсоры.
нулевой выстрел (zero-shot): Способность модели выполнять задачу без примеров её решения в процессе обучения.
захват (grasp): Действие манипулятора (например, схвата) по удержанию объекта; поза захвата — положение и ориентация захвата относительно объекта.

NVIDIA Research представила на конференции Computer Vision and Pattern Recognition (CVPR) 2025 три исследовательские работы, посвящённые физическому ИИ. Каждая из них решает задачу обобщения: система должна работать не только с теми объектами или сценариями, на которых обучалась, но и с новыми, не встречавшимися ранее. Общая методология — обучение в масштабе, когда большой объём разнообразных данных позволяет модели выявлять инвариантные закономерности.

Первая работа, GraspGen-X, представляет собой фундаментальную модель для захвата объектов. В отличие от существующих решений, которые обучаются для конкретного манипулятора, GraspGen-X принимает на вход геометрию нового захвата и неизвестного объекта, а на выходе даёт надёжные позы захвата. Для обучения исследователи сгенерировали 2 миллиарда симулированных захватов с тысячами форм объектов и синтетических конфигураций манипуляторов. Это позволяет применять модель для нескольких распространённых захватов сразу, без переобучения. GraspGen-X может использоваться совместно с библиотекой планирования движения curoboV2 для достижения этих поз в неизвестном окружении.

Вторая работа, LCDrive, решает проблему быстродействия рассуждений в автономных автомобилях. Текстовые цепочки рассуждений (chain-of-thought) генерируют слова, каждое из которых — токен, требующий времени. На процессоре внутри автомобиля количество токенов — реальное ограничение скорости реакции. LCDrive заменяет текст компактными латентными представлениями: вместо генерации читаемых шагов система мыслит в латентном пространстве, чередуя выдвижение гипотез о действиях и прогнозирование их последствий. Результат сравним по качеству траектории с текстовым рассуждением, но использует примерно вдвое меньше токенов. Модель обучалась на суперкомпьютере NVIDIA Alpamayo с использованием существующих данных с автомобилей.

LCDrive заменяет текстовые цепочки рассуждений компактными латентными представлениями, сокращая количество токенов вдвое и ускоряя реакцию на бортовом оборудовании.

Третья работа, NitroGen, расширяет архитектуру Isaac GR00T — открытой фундаментальной модели для человекоподобных роботов — до обобщённого игрового ИИ. NitroGen обучает воплощённых агентов в виртуальных средах на десятках тысяч часов взаимодействия, что позволяет им переносить навыки в реальный мир. Работа демонстрирует, что те же принципы масштабирования данных и разнообразия сценариев, которые работают в робототехнике, применимы к обучению виртуальных агентов.

Помимо трёх основных работ, NVIDIA также представила на CVPR 2025 набор навыков для физического ИИ, ускоряющих разработку систем автономного вождения, роботов и компьютерного зрения. Отдельная статья Grasp-MPC, опубликованная на ICRA 2026, развивает GraspGen-X в сторону замкнутого управления захватом в реальном времени.

Эти исследования имеют практическое значение: GraspGen-X снижает затраты на адаптацию роботов под разные манипуляторы, LCDrive приближает безопасное рассуждение на борту автомобиля, а NitroGen масштабирует обучение агентов для игр и симуляций. Все три работы доступны в открытом доступе программ NVIDIA Research.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

NVIDIA Research представила три работы по физическому ИИ на CVPR 2025

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений