Microsoft Research научила видеогенератор помнить пространство без хранения пикселей

Подготовлено редакцией Malakhov AI

The Decoder·14 июн.·3 минИсследованияИндустрия

Mirage — видеомодель от Microsoft Research и нескольких университетов — хранит не цветовые точки сцены, а внутренние признаки диффузионной модели, привязанные к координатам в 3D-пространстве. По данным авторов, это даёт до 10,57× ускорение генерации и до 55× снижение расхода видеопамяти по сравнению с конкурентами.

Кратко

—Mirage хранит латентные признаки диффузионной модели в 3D-пространстве вместо RGB-облака точек, устраняя двойной пересчёт данных.
—На бенчмарке WorldScore модель превзошла ближайшего конкурента Spatia и общие генераторы Wan2.1 и CogVideoX по пространственной стабильности.
—Расход вычислений и памяти на кадр почти не растёт с длиной видео — в отличие от цветовых систем памяти.
—Движущиеся объекты и небо намеренно исключаются из долгосрочной памяти: модель работает лучше всего на статичных интерьерах.
—Mirage построена на open-source модели Wan2.2 от Alibaba с добавлением модуля памяти и дообучением через LoRA-адаптеры.

Видео по теме

Latent Spatial Memory for Video World Models · Источник: The Decoder

Глоссарий · 7 терминов▾

Видеомодель мира (video world model): Генеративная модель, превращающая стартовый кадр и траекторию камеры в видео с пространственно согласованной сценой, пригодной для навигации.
RGB point cloud: Трёхмерное облако точек, каждая из которых хранит координаты в пространстве и цвет (RGB); используется как внешняя память о сцене в ряде видеомоделей.
Латентное пространство: Компактное внутреннее представление данных, которым оперирует нейросеть; в диффузионных моделях — сжатая версия изображения, с которой работает генератор.
Диффузионная модель: Класс генеративных нейросетей, обученных восстанавливать изображение или видео из зашумлённых данных итеративным уточнением.
LoRA-адаптеры: Метод дообучения больших моделей, при котором обновляются только небольшие дополнительные матрицы, а не все веса сети — это снижает вычислительные затраты.
WorldScore: Benchmark для оценки видеомоделей мира, измеряющий пространственную согласованность и стабильность текстур при движении камеры.
RealEstate10K: Датасет видеозаписей интерьеров недвижимости, широко используемый для оценки пространственной памяти видеомоделей.

Видеомодели мирового уровня умеют генерировать убедительные движущиеся изображения из стартового кадра и траектории камеры. Проблема возникает, когда камера уходит за угол и возвращается: мебель смещается, текстуры меняются, а пространственная структура сцены разваливается. Именно эту задачу решает Mirage — система, разработанная исследователями из нескольких университетов совместно с Microsoft Research.

Существующие подходы — Voyager, WonderWorld, Spatia — хранят память о сцене в виде трёхмерного облака цветовых точек (RGB point cloud). Каждый новый шаг генерации требует рендеринга этого облака в пиксельное изображение и последующего перекодирования обратно во внутреннее пространство признаков модели. Авторы Mirage называют это «двойным узким местом»: операция дорогостоящая по вычислениям, а при каждом проходе через пиксельное пространство часть информации теряется.

Система	Тип памяти	Ускорение vs цветовые системы	Снижение памяти vs цветовые системы
Mirage (Microsoft Research)	Латентные признаки в 3D	до 10,57×	до 55×
Spatia	RGB point cloud	—	—
WonderWorld	RGB point cloud	—	—
Voyager	RGB point cloud	—	—
Wan2.1	Без пространственной памяти	—	—
CogVideoX	Без пространственной памяти	—	—

Mirage отказывается от RGB-хранилища в пользу латентной пространственной памяти. Вместо цветовых точек система сохраняет те самые внутренние признаки, которые диффузионная модель уже использует в процессе генерации, — и привязывает каждый признак к конкретной точке в 3D-пространстве. При генерации нового ракурса модель проецирует это хранилище напрямую на целевую камеру и передаёт результат генератору, минуя рендеринг и перекодирование. Данные хранятся в компактном внутреннем разрешении модели, а не в полном размере изображения, что само по себе снижает расход памяти.

На бенчмарке WorldScore модель превзошла ближайшего конкурента Spatia и общие генераторы Wan2.1 и CogVideoX по пространственной стабильности.

Two video world model pipelines side by side. Top: an RGB point cloud memory with a render-and-encode loop. Bottom: Mirage's latent spatial memory, built and read directly in latent space. | Image: Wang et al. · Источник: The Decoder

Видео строится сегментами. Из стартового кадра формируется начальное содержимое латентного кэша. Для каждого следующего сегмента система читает нужные данные из памяти, генерирует новые кадры и записывает их содержимое обратно. Перед записью фильтр удаляет движущиеся объекты и небо — элементы с нестабильной геометрией, — оставляя в долгосрочной памяти только статичные поверхности.

Технически Mirage построена поверх open-source видеомодели Wan2.2 от Alibaba. К ней добавлен небольшой модуль, обучающий модель работать с новым типом памяти, а затем вся система дообучена с помощью LoRA-адаптеров.

На бенчмарке WorldScore Mirage превзошла Spatia — ближайшего конкурента, сохраняющего память в виде цветовых точек, — а также оставила позади общие видеогенераторы Wan2.1 и CogVideoX по показателям пространственной согласованности и стабильности текстур. На датасете RealEstate10K в режиме замкнутого цикла — когда камера возвращается в исходную точку, накапливая все ошибки пути, — Mirage лидирует по двум из трёх метрик. Расход вычислений и видеопамяти на кадр остаётся практически постоянным по мере роста длины видео, тогда как у конкурентов оба показателя растут с каждым сегментом. Суммарный выигрыш авторы оценивают в 10,57× по скорости и 55× по памяти относительно цветовых систем.

Ограничение у подхода одно, и авторы его не скрывают: движущиеся объекты выбрасываются на границах сегментов, поскольку их геометрия ненадёжна. В насыщенных динамикой сценах преимущество пространственной памяти заметно меньше, чем в статичных интерьерах. Хранение динамического контента авторы называют следующей задачей.

Mirage seeds the latent cache from the starting image, then reads from it and writes to it chunk by chunk, keeping static scene content intact across the whole run. | Image: Wang et al. · Источник: The Decoder

Mirage появляется в момент, когда видеомодели мира (world models) стали одним из центральных направлений исследований в ИИ-видео. Большинство коммерческих систем, включая Veo от Google, генерируют отдельные согласованные клипы, но не поддерживают навигацию по сцене. Google DeepMind недавно показала Genie 3, способную удерживать интерактивную среду в реальном времени на протяжении нескольких минут. Подход Mirage — хранить не пиксели, а признаки — предлагает способ масштабировать такие системы без линейного роста вычислительных затрат.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Microsoft Research научила видеогенератор помнить пространство без хранения пикселей

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента