Видеомодели мирового уровня умеют генерировать убедительные движущиеся изображения из стартового кадра и траектории камеры. Проблема возникает, когда камера уходит за угол и возвращается: мебель смещается, текстуры меняются, а пространственная структура сцены разваливается. Именно эту задачу решает Mirage — система, разработанная исследователями из нескольких университетов совместно с Microsoft Research.
Существующие подходы — Voyager, WonderWorld, Spatia — хранят память о сцене в виде трёхмерного облака цветовых точек (RGB point cloud). Каждый новый шаг генерации требует рендеринга этого облака в пиксельное изображение и последующего перекодирования обратно во внутреннее пространство признаков модели. Авторы Mirage называют это «двойным узким местом»: операция дорогостоящая по вычислениям, а при каждом проходе через пиксельное пространство часть информации теряется.
| Система | Тип памяти | Ускорение vs цветовые системы | Снижение памяти vs цветовые системы |
|---|---|---|---|
| Mirage (Microsoft Research) | Латентные признаки в 3D | до 10,57× | до 55× |
| Spatia | RGB point cloud | — | — |
| WonderWorld | RGB point cloud | — | — |
| Voyager | RGB point cloud | — | — |
| Wan2.1 | Без пространственной памяти | — | — |
| CogVideoX | Без пространственной памяти | — | — |
Mirage отказывается от RGB-хранилища в пользу латентной пространственной памяти. Вместо цветовых точек система сохраняет те самые внутренние признаки, которые диффузионная модель уже использует в процессе генерации, — и привязывает каждый признак к конкретной точке в 3D-пространстве. При генерации нового ракурса модель проецирует это хранилище напрямую на целевую камеру и передаёт результат генератору, минуя рендеринг и перекодирование. Данные хранятся в компактном внутреннем разрешении модели, а не в полном размере изображения, что само по себе снижает расход памяти.
На бенчмарке WorldScore модель превзошла ближайшего конкурента Spatia и общие генераторы Wan2.1 и CogVideoX по пространственной стабильности.

Видео строится сегментами. Из стартового кадра формируется начальное содержимое латентного кэша. Для каждого следующего сегмента система читает нужные данные из памяти, генерирует новые кадры и записывает их содержимое обратно. Перед записью фильтр удаляет движущиеся объекты и небо — элементы с нестабильной геометрией, — оставляя в долгосрочной памяти только статичные поверхности.
Технически Mirage построена поверх open-source видеомодели Wan2.2 от Alibaba. К ней добавлен небольшой модуль, обучающий модель работать с новым типом памяти, а затем вся система дообучена с помощью LoRA-адаптеров.
На бенчмарке WorldScore Mirage превзошла Spatia — ближайшего конкурента, сохраняющего память в виде цветовых точек, — а также оставила позади общие видеогенераторы Wan2.1 и CogVideoX по показателям пространственной согласованности и стабильности текстур. На датасете RealEstate10K в режиме замкнутого цикла — когда камера возвращается в исходную точку, накапливая все ошибки пути, — Mirage лидирует по двум из трёх метрик. Расход вычислений и видеопамяти на кадр остаётся практически постоянным по мере роста длины видео, тогда как у конкурентов оба показателя растут с каждым сегментом. Суммарный выигрыш авторы оценивают в 10,57× по скорости и 55× по памяти относительно цветовых систем.
Ограничение у подхода одно, и авторы его не скрывают: движущиеся объекты выбрасываются на границах сегментов, поскольку их геометрия ненадёжна. В насыщенных динамикой сценах преимущество пространственной памяти заметно меньше, чем в статичных интерьерах. Хранение динамического контента авторы называют следующей задачей.

Mirage появляется в момент, когда видеомодели мира (world models) стали одним из центральных направлений исследований в ИИ-видео. Большинство коммерческих систем, включая Veo от Google, генерируют отдельные согласованные клипы, но не поддерживают навигацию по сцене. Google DeepMind недавно показала Genie 3, способную удерживать интерактивную среду в реальном времени на протяжении нескольких минут. Подход Mirage — хранить не пиксели, а признаки — предлагает способ масштабировать такие системы без линейного роста вычислительных затрат.



