NVIDIA выпустила публичную бета-версию XR ИИ — фреймворка для построения мультимодальных ИИ-агентов, интегрируемых с AR-очками и другими XR-устройствами. Платформа решает задачу создания агентов, которые не просто генерируют ответы, а воспринимают физическое окружение через видео, аудио, данные глубины и позы, получают доступ к корпоративным системам и помогают пользователю в реальном времени без отвлечения.

Фреймворк объединяет четыре ключевых компонента. Первый — сбор сигналов от XR-устройств: видео, аудио, глубина, поза, сенсорные данные. Второй — подключение специализированных инструментов: NVIDIA Metropolis для визуального ИИ и анализа видео, а также NeMo Retriever для корпоративного поиска на основе RAG. Третий — поддержка широкого спектра моделей, включая reasoning-модели NVIDIA Nemotron и Cosmos Reason, наряду с совместимыми открытыми моделями. Четвёртый — оркестрация агентов и ускоренный runtime через NVIDIA NeMo Agent Toolkit, который обеспечивает использование инструментов, многолетние рассуждения и координацию нескольких агентов. Всё это работает на платформах NVIDIA DGX Spark, DGX Station и RTX PRO, поддерживающих инференс в облаке, ЦОД или на периферии.

КомпонентНазначение
Сбор сигналовПриём видео, аудио, глубины, позы и сенсорных данных с XR-устройств.
ИнструментыПодключение Metropolis для визуального ИИ и NeMo Retriever для корпоративного поиска.
МоделиПоддержка Nemotron, Cosmos Reason и других foundation моделей.
ОркестрацияNeMo Agent Toolkit для многолетней оркестрации и ускоренного runtime.

Уже есть практические внедрения. Siemens в исследовательском проекте использует XR ИИ вместе с DGX Spark для помощи инженерам на заводе: через лёгкие AR-очки инженер может голосом спросить о неисправности программируемого логического контроллера и получить пошаговые инструкции, подключённые к цифровым двойникам и промышленным системам. Биотехнологическая компания Rana развернула свою платформу LabOS на базе XR ИИ для выполнения сложных экспериментов по редактированию генов CRISPR — система в реальном времени подсказывает, какой образец и редактор использовать, фиксируя каждый шаг. LabOS совместима с очками Meta, Rokid и VITURE. Производитель носимых дисплеев VITURE встроил XR ИИ в интерфейс для сотрудников, позволяя находить нужную информацию голосом без использования рук.

Платформа включает четыре модуля: сбор сигналов, подключение инструментов (Metropolis, NeMo Retriever), поддержка моделей (Nemotron, Cosmos Reason) и оркестрация агентов.

XR ИИ упрощает разработку пространственно-осознанных агентов, соединяя физический мир с данными предприятия и моделями ИИ. Для разработчиков это готовая инфраструктура, сокращающая путь от прототипа до продукта в таких сферах, как промышленность, научные исследования, здравоохранение и обучение.