NVIDIA Research представила на конференции Computer Vision and Pattern Recognition (CVPR) 2025 три исследовательские работы, посвящённые физическому ИИ. Каждая из них решает задачу обобщения: система должна работать не только с теми объектами или сценариями, на которых обучалась, но и с новыми, не встречавшимися ранее. Общая методология — обучение в масштабе, когда большой объём разнообразных данных позволяет модели выявлять инвариантные закономерности.

Первая работа, GraspGen-X, представляет собой фундаментальную модель для захвата объектов. В отличие от существующих решений, которые обучаются для конкретного манипулятора, GraspGen-X принимает на вход геометрию нового захвата и неизвестного объекта, а на выходе даёт надёжные позы захвата. Для обучения исследователи сгенерировали 2 миллиарда симулированных захватов с тысячами форм объектов и синтетических конфигураций манипуляторов. Это позволяет применять модель для нескольких распространённых захватов сразу, без переобучения. GraspGen-X может использоваться совместно с библиотекой планирования движения curoboV2 для достижения этих поз в неизвестном окружении.

Вторая работа, LCDrive, решает проблему быстродействия рассуждений в автономных автомобилях. Текстовые цепочки рассуждений (chain-of-thought) генерируют слова, каждое из которых — токен, требующий времени. На процессоре внутри автомобиля количество токенов — реальное ограничение скорости реакции. LCDrive заменяет текст компактными латентными представлениями: вместо генерации читаемых шагов система мыслит в латентном пространстве, чередуя выдвижение гипотез о действиях и прогнозирование их последствий. Результат сравним по качеству траектории с текстовым рассуждением, но использует примерно вдвое меньше токенов. Модель обучалась на суперкомпьютере NVIDIA Alpamayo с использованием существующих данных с автомобилей.

LCDrive заменяет текстовые цепочки рассуждений компактными латентными представлениями, сокращая количество токенов вдвое и ускоряя реакцию на бортовом оборудовании.

Третья работа, NitroGen, расширяет архитектуру Isaac GR00T — открытой фундаментальной модели для человекоподобных роботов — до обобщённого игрового ИИ. NitroGen обучает воплощённых агентов в виртуальных средах на десятках тысяч часов взаимодействия, что позволяет им переносить навыки в реальный мир. Работа демонстрирует, что те же принципы масштабирования данных и разнообразия сценариев, которые работают в робототехнике, применимы к обучению виртуальных агентов.

Помимо трёх основных работ, NVIDIA также представила на CVPR 2025 набор навыков для физического ИИ, ускоряющих разработку систем автономного вождения, роботов и компьютерного зрения. Отдельная статья Grasp-MPC, опубликованная на ICRA 2026, развивает GraspGen-X в сторону замкнутого управления захватом в реальном времени.

Эти исследования имеют практическое значение: GraspGen-X снижает затраты на адаптацию роботов под разные манипуляторы, LCDrive приближает безопасное рассуждение на борту автомобиля, а NitroGen масштабирует обучение агентов для игр и симуляций. Все три работы доступны в открытом доступе программ NVIDIA Research.