Исследователи из AIRI («Пространственный интеллект»), Института ИИ МГУ, ВШЭ и Института механики представили TUN3D — метод совместной 3D-детекции объектов и оценки планировки помещений, работающий напрямую с видео обычной камеры. Метод не требует ни данных с LiDAR, ни точных сведений о положении камеры в каждый момент съёмки. Статья принята на ICRA 2026 — одну из ключевых международных конференций по робототехнике.

Задача понимания внутреннего пространства помещения (indoor scene understanding) нужна робототехнике, AR/VR и системам умного дома. На практике требуется не плотная полигональная сетка, а компактное структурированное описание: где проходят стены, пол и потолок (layout), и что именно стоит в комнате — с координатами и размерами (3D object detection). Большинство существующих методов либо требуют облако точек с дорогого лидара, либо работают медленно, либо решают только одну из двух задач.

МетодLayout F1 (ScanNet)Detection mAP@0.25 (S3DIS)Время на сцену, мс
TUN3D66.674.4~49
PQ-Transformer54.4217
Omni-PQ60.8
SpatialLM7935

Архитектура TUN3D построена по схеме Backbone–Neck–Heads. В качестве бэкбона используется лёгкая разреженная свёрточная сеть (sparse convolutional network) — оптимизированная версия из TR3D. Она вокселизирует облако точек и извлекает иерархические 3D-признаки. Neck агрегирует признаки с разных уровней через generative sparse convolution, чтобы не терять информацию на границах объектов. Две параллельные головы отвечают за детекцию объектов (Detection Head) и за предсказание стен (Layout Head).

Метод одновременно решает две задачи: 3D-детекцию объектов и восстановление планировки помещения.

Для работы с обычными изображениями без поз камер TUN3D использует внешний модуль DUSt3R: он по набору кадров восстанавливает глубину и позиции камер, формируя облако точек, которое затем поступает в основную модель. Таким образом, система поддерживает три режима входных данных: готовое облако точек, изображения с известными позами (например, из ARKit) и просто видео без какой-либо дополнительной информации.

Отдельного внимания заслуживает параметризация стен. Авторы предложили BEV-представление (Bird's-Eye-View): 3D-признаки проецируются на плоскость пола, к ним добавляется вектор глобальной статистики высоты (квантили z-координат, закодированные небольшой MLP-сетью), после чего модель предсказывает всего пять чисел на стену — смещения двух нижних углов и высоту. Верхние углы вычисляются автоматически. Такая компактная параметризация оказалась устойчивее к шуму, чем более сложные альтернативы.

На бенчмарке ScanNet метод достиг Layout F1 = 66.6, превысив Omni-PQ на 5.8 пункта и PQ-Transformer на 12.2. Detection mAP@0.25 на S3DIS составил 74.4 — сопоставимо со специализированными детекторами, которые не решают задачу планировки параллельно. В режиме «только изображения без поз» Layout F1 составил 46.5 — выше, чем у PQ-Transformer с известными позами (44.1). Авторы объясняют это тем, что архитектура и BEV-параметризация изначально рассчитаны на зашумлённые входные данные.

По скорости TUN3D обрабатывает сцену из ScanNet примерно за 49 мс — против 217 мс у PQ-Transformer и почти 8 секунд у SpatialLM. Такая разница объясняется лёгким sparse-conv бэкбоном и простыми головами без авторегрессивной генерации.

Практические применения метода — цифровые двойники помещений, навигация роботов в незнакомых пространствах, AR-приложения и инспекция объектов. Код опубликован в открытом доступе.