Исследователи из AIRI («Пространственный интеллект»), Института ИИ МГУ, ВШЭ и Института механики представили TUN3D — метод совместной 3D-детекции объектов и оценки планировки помещений, работающий напрямую с видео обычной камеры. Метод не требует ни данных с LiDAR, ни точных сведений о положении камеры в каждый момент съёмки. Статья принята на ICRA 2026 — одну из ключевых международных конференций по робототехнике.
Задача понимания внутреннего пространства помещения (indoor scene understanding) нужна робототехнике, AR/VR и системам умного дома. На практике требуется не плотная полигональная сетка, а компактное структурированное описание: где проходят стены, пол и потолок (layout), и что именно стоит в комнате — с координатами и размерами (3D object detection). Большинство существующих методов либо требуют облако точек с дорогого лидара, либо работают медленно, либо решают только одну из двух задач.
| Метод | Layout F1 (ScanNet) | Detection mAP@0.25 (S3DIS) | Время на сцену, мс |
|---|---|---|---|
| TUN3D | 66.6 | 74.4 | ~49 |
| PQ-Transformer | 54.4 | — | 217 |
| Omni-PQ | 60.8 | — | — |
| SpatialLM | — | — | 7935 |
Архитектура TUN3D построена по схеме Backbone–Neck–Heads. В качестве бэкбона используется лёгкая разреженная свёрточная сеть (sparse convolutional network) — оптимизированная версия из TR3D. Она вокселизирует облако точек и извлекает иерархические 3D-признаки. Neck агрегирует признаки с разных уровней через generative sparse convolution, чтобы не терять информацию на границах объектов. Две параллельные головы отвечают за детекцию объектов (Detection Head) и за предсказание стен (Layout Head).
Метод одновременно решает две задачи: 3D-детекцию объектов и восстановление планировки помещения.
Для работы с обычными изображениями без поз камер TUN3D использует внешний модуль DUSt3R: он по набору кадров восстанавливает глубину и позиции камер, формируя облако точек, которое затем поступает в основную модель. Таким образом, система поддерживает три режима входных данных: готовое облако точек, изображения с известными позами (например, из ARKit) и просто видео без какой-либо дополнительной информации.
Отдельного внимания заслуживает параметризация стен. Авторы предложили BEV-представление (Bird's-Eye-View): 3D-признаки проецируются на плоскость пола, к ним добавляется вектор глобальной статистики высоты (квантили z-координат, закодированные небольшой MLP-сетью), после чего модель предсказывает всего пять чисел на стену — смещения двух нижних углов и высоту. Верхние углы вычисляются автоматически. Такая компактная параметризация оказалась устойчивее к шуму, чем более сложные альтернативы.
На бенчмарке ScanNet метод достиг Layout F1 = 66.6, превысив Omni-PQ на 5.8 пункта и PQ-Transformer на 12.2. Detection mAP@0.25 на S3DIS составил 74.4 — сопоставимо со специализированными детекторами, которые не решают задачу планировки параллельно. В режиме «только изображения без поз» Layout F1 составил 46.5 — выше, чем у PQ-Transformer с известными позами (44.1). Авторы объясняют это тем, что архитектура и BEV-параметризация изначально рассчитаны на зашумлённые входные данные.
По скорости TUN3D обрабатывает сцену из ScanNet примерно за 49 мс — против 217 мс у PQ-Transformer и почти 8 секунд у SpatialLM. Такая разница объясняется лёгким sparse-conv бэкбоном и простыми головами без авторегрессивной генерации.
Практические применения метода — цифровые двойники помещений, навигация роботов в незнакомых пространствах, AR-приложения и инспекция объектов. Код опубликован в открытом доступе.
