Видеомодели мирового уровня умеют генерировать убедительные движущиеся изображения из стартового кадра и траектории камеры. Проблема возникает, когда камера уходит за угол и возвращается: мебель смещается, текстуры меняются, а пространственная структура сцены разваливается. Именно эту задачу решает Mirage — система, разработанная исследователями из нескольких университетов совместно с Microsoft Research.

Существующие подходы — Voyager, WonderWorld, Spatia — хранят память о сцене в виде трёхмерного облака цветовых точек (RGB point cloud). Каждый новый шаг генерации требует рендеринга этого облака в пиксельное изображение и последующего перекодирования обратно во внутреннее пространство признаков модели. Авторы Mirage называют это «двойным узким местом»: операция дорогостоящая по вычислениям, а при каждом проходе через пиксельное пространство часть информации теряется.

СистемаТип памятиУскорение vs цветовые системыСнижение памяти vs цветовые системы
Mirage (Microsoft Research)Латентные признаки в 3Dдо 10,57×до 55×
SpatiaRGB point cloud
WonderWorldRGB point cloud
VoyagerRGB point cloud
Wan2.1Без пространственной памяти
CogVideoXБез пространственной памяти

Mirage отказывается от RGB-хранилища в пользу латентной пространственной памяти. Вместо цветовых точек система сохраняет те самые внутренние признаки, которые диффузионная модель уже использует в процессе генерации, — и привязывает каждый признак к конкретной точке в 3D-пространстве. При генерации нового ракурса модель проецирует это хранилище напрямую на целевую камеру и передаёт результат генератору, минуя рендеринг и перекодирование. Данные хранятся в компактном внутреннем разрешении модели, а не в полном размере изображения, что само по себе снижает расход памяти.

На бенчмарке WorldScore модель превзошла ближайшего конкурента Spatia и общие генераторы Wan2.1 и CogVideoX по пространственной стабильности.

Two video world model pipelines side by side. Top: an RGB point cloud memory with a render-and-encode loop. Bottom: Mirage's latent spatial memory, built and read directly in latent space. | Image: Wang et al.
Two video world model pipelines side by side. Top: an RGB point cloud memory with a render-and-encode loop. Bottom: Mirage's latent spatial memory, built and read directly in latent space. | Image: Wang et al. · Источник: The Decoder

Видео строится сегментами. Из стартового кадра формируется начальное содержимое латентного кэша. Для каждого следующего сегмента система читает нужные данные из памяти, генерирует новые кадры и записывает их содержимое обратно. Перед записью фильтр удаляет движущиеся объекты и небо — элементы с нестабильной геометрией, — оставляя в долгосрочной памяти только статичные поверхности.

Технически Mirage построена поверх open-source видеомодели Wan2.2 от Alibaba. К ней добавлен небольшой модуль, обучающий модель работать с новым типом памяти, а затем вся система дообучена с помощью LoRA-адаптеров.

На бенчмарке WorldScore Mirage превзошла Spatia — ближайшего конкурента, сохраняющего память в виде цветовых точек, — а также оставила позади общие видеогенераторы Wan2.1 и CogVideoX по показателям пространственной согласованности и стабильности текстур. На датасете RealEstate10K в режиме замкнутого цикла — когда камера возвращается в исходную точку, накапливая все ошибки пути, — Mirage лидирует по двум из трёх метрик. Расход вычислений и видеопамяти на кадр остаётся практически постоянным по мере роста длины видео, тогда как у конкурентов оба показателя растут с каждым сегментом. Суммарный выигрыш авторы оценивают в 10,57× по скорости и 55× по памяти относительно цветовых систем.

Ограничение у подхода одно, и авторы его не скрывают: движущиеся объекты выбрасываются на границах сегментов, поскольку их геометрия ненадёжна. В насыщенных динамикой сценах преимущество пространственной памяти заметно меньше, чем в статичных интерьерах. Хранение динамического контента авторы называют следующей задачей.

Mirage seeds the latent cache from the starting image, then reads from it and writes to it chunk by chunk, keeping static scene content intact across the whole run. | Image: Wang et al.
Mirage seeds the latent cache from the starting image, then reads from it and writes to it chunk by chunk, keeping static scene content intact across the whole run. | Image: Wang et al. · Источник: The Decoder

Mirage появляется в момент, когда видеомодели мира (world models) стали одним из центральных направлений исследований в ИИ-видео. Большинство коммерческих систем, включая Veo от Google, генерируют отдельные согласованные клипы, но не поддерживают навигацию по сцене. Google DeepMind недавно показала Genie 3, способную удерживать интерактивную среду в реальном времени на протяжении нескольких минут. Подход Mirage — хранить не пиксели, а признаки — предлагает способ масштабировать такие системы без линейного роста вычислительных затрат.