За два года DeepMind прошла путь от генерации простых 2D-платформеров до системы, которая якорит виртуальные миры к реальным координатам Google Street View. На Google I/O 19 мая 2026 года команда показала, как робот может получить тренировочную сессию на улицах Лондона или Токио, не покидая дата-центр — всё это доступно через подписку Google ИИ Ultra за $200 в месяц.
Главное, что отличает Genie 3 от видеогенераторов вроде Sora или Veo, — понятие действия. Видеомодели принимают текст или картинку и выдают фиксированный набор кадров: повернуть камеру, открыть дверь или нажать кнопку «вперёд» невозможно. Genie 3 генерирует среду, в которую пользователь заходит через клавиатуру: каждый кадр создаётся в момент, когда на него смотришь, с учётом последнего действия. Французский регулятор CNIL в марте 2026 года формализовал это разделение: мировая модель моделирует динамику окружения и предсказывает, как среда меняется под влиянием действий; видеомодель генерирует «фиксированную траекторию» без интерактивности.
| Версия | Дата | Ключевые возможности | Ограничения |
|---|---|---|---|
| Genie 1 | Март 2024 | 2D интерактивные среды по картинке или эскизу | Только 2D, доказательство концепции |
| Genie 2 | Декабрь 2024 | 3D, глубина, навигация в трёх измерениях | Память 10–20 секунд, объекты «забывались» |
| Genie 3 | Август 2025 | 720p, 24 кадра/с, память до минуты, промпт-события в процессе | Физика эмерджентная, возможны ошибки |
| Project Genie | Январь 2026 | Платный доступ для AI Ultra в США, веб-интерфейс | Лимит 60-секундные сессии |
| Waymo World Model | Февраль 2026 | Форк Genie 3 для тренировки роботакси на редких сценариях | Специализированный, не публичный |
| Genie 3 + Street View | 19 мая 2026 | Якорение к реальным координатам, глобальный доступ через AI Ultra | Цена $200/месяц |
Под капотом Genie 3 — авторегрессивный трансформер, та же базовая архитектура, что у больших языковых моделей, но адаптированная под визуальные кадры вместо текстовых токенов. Система состоит из трёх компонентов. Видео-токенизатор на основе VQ-VAE сжимает кадры в дискретные токены, кодируя пространственные и временные паттерны. Модель скрытых действий выводит, какой ввод привёл к переходу между кадрами — это позволяет обучаться на обычном видео без разметки нажатий клавиш. Наконец, модель динамики — авторегрессивный трансформер — предсказывает токены следующего кадра на основе скрытого действия и истории предыдущих кадров. По утёкшей документации, Genie 3 содержит около 11 млрд параметров; при 24 кадрах в секунду на генерацию каждого кадра отводится 41,67 миллисекунды.
Архитектура модели: видео-токенизатор VQ-VAE, модель скрытых действий и авторегрессивный трансформер — около 11 млрд параметров.
Физика в модели не запрограммирована явно — в отличие от Unity или Unreal, где гравитация и столкновения описаны кодом. Genie 3 воспроизводит поведение объектов как эмерджентное свойство, выученное из миллионов часов видео. Это даёт гибкость: модель работает в сюрреалистичных мирах, где стандартная физика неприменима. Но это и источник ошибок: стакан на краю стола может зависнуть в воздухе, жидкость потечь не туда, а комната после минутного отсутствия игрока выглядеть иначе. Альтернативные подходы — NeRF и Gaussian Splatting — гарантируют связность через явное 3D-представление сцены, но требуют построения меш-структуры, расстановки источников света и настройки материалов. Genie 3 обходится промптом.
Хронология развития системы плотная. Genie 1 вышел в марте 2024 года и генерировал двумерные интерактивные среды уровня старых аркад — доказательство концепции. Genie 2 в декабре 2024-го добавил 3D и перспективу, но память модели не превышала 10–20 секунд: отвернулся от дома и снова повернулся — дом мог стать другим. Genie 3 в августе 2025-го вышел как публичный исследовательский релиз: 720p при 24 кадрах в секунду, память расширилась до минуты, появились события, управляемые промптом прямо в процессе игры — «начался снегопад» или «добавь медведя» без перегенерации сцены. В январе 2026-го открылся платный доступ для подписчиков Google ИИ Ultra в США с лимитом 60-секундных сессий. В феврале Waymo опубликовала собственный форк — Waymo World Model. В мае привязка к Street View стала доступна глобально.
Применение Waymo показывает, где мировые модели уже работают в продакшене. Чтобы научить роботакси реагировать на торнадо, нужно показать ему торнадо с точки зрения самой машины. Игровые движки с захардкоженной физикой давали неправдоподобный результат. Genie 3 воспроизводит эффекты убедительно, потому что обучен на реальном видео, и не требует программирования сценария — достаточно текстового описания. Waymo перечислила симулируемые ситуации: торнадо, наводнения, слоны на шоссе, пешеходы в костюмах динозавров, машины едущие против движения, грузовики, рассыпающие груз. Комбинации событий, которых никогда не было в реальных логах, теперь можно сгенерировать за секунды — притом что Waymo с 2009 года накопила десятки миллионов миль реальных данных.

