TUN3D: российские исследователи научили смартфон строить 3D-модель комнаты без LiDAR

Подготовлено редакцией Malakhov AI

Habr AI·1 июн.·3 минРоссияКод

Команда AIRI совместно с учёными МГУ, ВШЭ и Института механики разработала метод TUN3D, который по обычному видео со смартфона одновременно определяет расположение мебели в 3D и восстанавливает геометрию стен, пола и потолка — без датчика глубины и без точных данных о положении камеры. Статья принята на конференцию по робототехнике ICRA 2026.

Кратко

—TUN3D работает с обычным видео со смартфона — без LiDAR и без данных о позиции камеры.
—Метод одновременно решает две задачи: 3D-детекцию объектов и восстановление планировки помещения.
—На ScanNet Layout F1 составил 66.6 — на 5.8 выше Omni-PQ и на 12.2 выше PQ-Transformer.
—Скорость обработки сцены — около 49 мс против 217 мс у PQ-Transformer и 7935 мс у SpatialLM.
—Код опубликован в открытом доступе; статья принята на ICRA 2026.

Глоссарий · 7 терминов▾

LiDAR: Датчик, измеряющий расстояния с помощью лазерных импульсов; используется для получения точных облаков точек, но стоит дорого и встречается не во всех устройствах.
Облако точек (point cloud): Набор трёхмерных координат, описывающих поверхности объектов в пространстве; стандартный входной формат для большинства 3D-методов.
Sparse convolutional network: Нейросеть, применяющая свёртки только к непустым вокселям, что делает обработку разреженных 3D-данных значительно быстрее.
BEV (Bird's-Eye-View): Представление сцены с высоты птичьего полёта — проекция на горизонтальную плоскость; упрощает описание вертикальных объектов вроде стен.
DUSt3R: Модель, восстанавливающая глубину и положения камер по набору обычных фотографий без дополнительных датчиков.
mAP (mean Average Precision): Стандартная метрика качества детекции объектов: усреднённая точность по всем классам и порогам перекрытия.
Layout F1: Метрика оценки качества восстановления планировки помещения, совмещающая точность и полноту предсказанных стен.

Исследователи из AIRI («Пространственный интеллект»), Института ИИ МГУ, ВШЭ и Института механики представили TUN3D — метод совместной 3D-детекции объектов и оценки планировки помещений, работающий напрямую с видео обычной камеры. Метод не требует ни данных с LiDAR, ни точных сведений о положении камеры в каждый момент съёмки. Статья принята на ICRA 2026 — одну из ключевых международных конференций по робототехнике.

Задача понимания внутреннего пространства помещения (indoor scene understanding) нужна робототехнике, AR/VR и системам умного дома. На практике требуется не плотная полигональная сетка, а компактное структурированное описание: где проходят стены, пол и потолок (layout), и что именно стоит в комнате — с координатами и размерами (3D object detection). Большинство существующих методов либо требуют облако точек с дорогого лидара, либо работают медленно, либо решают только одну из двух задач.

Метод	Layout F1 (ScanNet)	Detection mAP@0.25 (S3DIS)	Время на сцену, мс
TUN3D	66.6	74.4	~49
PQ-Transformer	54.4	—	217
Omni-PQ	60.8	—	—
SpatialLM	—	—	7935

Архитектура TUN3D построена по схеме Backbone–Neck–Heads. В качестве бэкбона используется лёгкая разреженная свёрточная сеть (sparse convolutional network) — оптимизированная версия из TR3D. Она вокселизирует облако точек и извлекает иерархические 3D-признаки. Neck агрегирует признаки с разных уровней через generative sparse convolution, чтобы не терять информацию на границах объектов. Две параллельные головы отвечают за детекцию объектов (Detection Head) и за предсказание стен (Layout Head).

Метод одновременно решает две задачи: 3D-детекцию объектов и восстановление планировки помещения.

Для работы с обычными изображениями без поз камер TUN3D использует внешний модуль DUSt3R: он по набору кадров восстанавливает глубину и позиции камер, формируя облако точек, которое затем поступает в основную модель. Таким образом, система поддерживает три режима входных данных: готовое облако точек, изображения с известными позами (например, из ARKit) и просто видео без какой-либо дополнительной информации.

Отдельного внимания заслуживает параметризация стен. Авторы предложили BEV-представление (Bird's-Eye-View): 3D-признаки проецируются на плоскость пола, к ним добавляется вектор глобальной статистики высоты (квантили z-координат, закодированные небольшой MLP-сетью), после чего модель предсказывает всего пять чисел на стену — смещения двух нижних углов и высоту. Верхние углы вычисляются автоматически. Такая компактная параметризация оказалась устойчивее к шуму, чем более сложные альтернативы.

На бенчмарке ScanNet метод достиг Layout F1 = 66.6, превысив Omni-PQ на 5.8 пункта и PQ-Transformer на 12.2. Detection mAP@0.25 на S3DIS составил 74.4 — сопоставимо со специализированными детекторами, которые не решают задачу планировки параллельно. В режиме «только изображения без поз» Layout F1 составил 46.5 — выше, чем у PQ-Transformer с известными позами (44.1). Авторы объясняют это тем, что архитектура и BEV-параметризация изначально рассчитаны на зашумлённые входные данные.

По скорости TUN3D обрабатывает сцену из ScanNet примерно за 49 мс — против 217 мс у PQ-Transformer и почти 8 секунд у SpatialLM. Такая разница объясняется лёгким sparse-conv бэкбоном и простыми головами без авторегрессивной генерации.

Практические применения метода — цифровые двойники помещений, навигация роботов в незнакомых пространствах, AR-приложения и инспекция объектов. Код опубликован в открытом доступе.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам