Genie 3 от DeepMind: как работают мировые модели и зачем они нужны Waymo

Подготовлено редакцией Malakhov AI

Habr AI·25 мая·3 минРоссияКод

19 мая 2026 года на Google I/O DeepMind показала привязку Project Genie к координатам Google Street View — теперь роботы могут тренироваться в виртуальном Лондоне или Токио, не выезжая из дата-центра. Доступ открыт глобально через подписку Google ИИ Ultra за $200 в месяц.

Кратко

—Genie 3 генерирует интерактивные 3D-среды в реальном времени — в отличие от Sora и Veo, которые создают фиксированное видео без возможности взаимодействия.
—Архитектура модели: видео-токенизатор VQ-VAE, модель скрытых действий и авторегрессивный трансформер — около 11 млрд параметров.
—Waymo в феврале 2026 года построила на базе Genie 3 симулятор для тренировки роботакси на редких сценариях: торнадо, наводнения, пешеходы в костюмах динозавров.
—Физика в Genie 3 не запрограммирована — модель воспроизводит поведение объектов как эмерджентное свойство, выученное из миллионов часов видео.
—За два года вышло четыре поколения: от 2D-платформеров в Genie 1 (март 2024) до привязки к Street View в мае 2026.

Глоссарий · 7 терминов▾

Мировая модель (world model): ИИ-система, которая моделирует динамику окружения: предсказывает, как среда меняется в ответ на действия пользователя или агента.
Авторегрессивный трансформер: Нейросетевая архитектура, которая предсказывает следующий элемент последовательности (токен, кадр) на основе всех предыдущих.
VQ-VAE: Видео-токенизатор, который сжимает кадры в дискретные токены, кодируя пространственные и временные паттерны для последующей обработки трансформером.
Модель скрытых действий (latent action model): Компонент Genie 3, который выводит, какой пользовательский ввод привёл к переходу между двумя кадрами, — позволяет обучаться на видео без разметки действий.
Эмерджентное свойство: Поведение системы, которое не заложено явными правилами, а возникает как результат обучения на большом объёме данных.
NeRF (нейронные поля излучения): Метод 3D-представления сцены через нейросеть, которая предсказывает цвет и плотность в каждой точке пространства; обеспечивает геометрически точную связность.
Gaussian Splatting: Альтернативный метод 3D-реконструкции сцены через набор гауссовых «сплатов» — обеспечивает высокую скорость рендеринга при явном представлении геометрии.

За два года DeepMind прошла путь от генерации простых 2D-платформеров до системы, которая якорит виртуальные миры к реальным координатам Google Street View. На Google I/O 19 мая 2026 года команда показала, как робот может получить тренировочную сессию на улицах Лондона или Токио, не покидая дата-центр — всё это доступно через подписку Google ИИ Ultra за $200 в месяц.

Главное, что отличает Genie 3 от видеогенераторов вроде Sora или Veo, — понятие действия. Видеомодели принимают текст или картинку и выдают фиксированный набор кадров: повернуть камеру, открыть дверь или нажать кнопку «вперёд» невозможно. Genie 3 генерирует среду, в которую пользователь заходит через клавиатуру: каждый кадр создаётся в момент, когда на него смотришь, с учётом последнего действия. Французский регулятор CNIL в марте 2026 года формализовал это разделение: мировая модель моделирует динамику окружения и предсказывает, как среда меняется под влиянием действий; видеомодель генерирует «фиксированную траекторию» без интерактивности.

Версия	Дата	Ключевые возможности	Ограничения
Genie 1	Март 2024	2D интерактивные среды по картинке или эскизу	Только 2D, доказательство концепции
Genie 2	Декабрь 2024	3D, глубина, навигация в трёх измерениях	Память 10–20 секунд, объекты «забывались»
Genie 3	Август 2025	720p, 24 кадра/с, память до минуты, промпт-события в процессе	Физика эмерджентная, возможны ошибки
Project Genie	Январь 2026	Платный доступ для AI Ultra в США, веб-интерфейс	Лимит 60-секундные сессии
Waymo World Model	Февраль 2026	Форк Genie 3 для тренировки роботакси на редких сценариях	Специализированный, не публичный
Genie 3 + Street View	19 мая 2026	Якорение к реальным координатам, глобальный доступ через AI Ultra	Цена $200/месяц

Под капотом Genie 3 — авторегрессивный трансформер, та же базовая архитектура, что у больших языковых моделей, но адаптированная под визуальные кадры вместо текстовых токенов. Система состоит из трёх компонентов. Видео-токенизатор на основе VQ-VAE сжимает кадры в дискретные токены, кодируя пространственные и временные паттерны. Модель скрытых действий выводит, какой ввод привёл к переходу между кадрами — это позволяет обучаться на обычном видео без разметки нажатий клавиш. Наконец, модель динамики — авторегрессивный трансформер — предсказывает токены следующего кадра на основе скрытого действия и истории предыдущих кадров. По утёкшей документации, Genie 3 содержит около 11 млрд параметров; при 24 кадрах в секунду на генерацию каждого кадра отводится 41,67 миллисекунды.

Архитектура модели: видео-токенизатор VQ-VAE, модель скрытых действий и авторегрессивный трансформер — около 11 млрд параметров.

Физика в модели не запрограммирована явно — в отличие от Unity или Unreal, где гравитация и столкновения описаны кодом. Genie 3 воспроизводит поведение объектов как эмерджентное свойство, выученное из миллионов часов видео. Это даёт гибкость: модель работает в сюрреалистичных мирах, где стандартная физика неприменима. Но это и источник ошибок: стакан на краю стола может зависнуть в воздухе, жидкость потечь не туда, а комната после минутного отсутствия игрока выглядеть иначе. Альтернативные подходы — NeRF и Gaussian Splatting — гарантируют связность через явное 3D-представление сцены, но требуют построения меш-структуры, расстановки источников света и настройки материалов. Genie 3 обходится промптом.

Хронология развития системы плотная. Genie 1 вышел в марте 2024 года и генерировал двумерные интерактивные среды уровня старых аркад — доказательство концепции. Genie 2 в декабре 2024-го добавил 3D и перспективу, но память модели не превышала 10–20 секунд: отвернулся от дома и снова повернулся — дом мог стать другим. Genie 3 в августе 2025-го вышел как публичный исследовательский релиз: 720p при 24 кадрах в секунду, память расширилась до минуты, появились события, управляемые промптом прямо в процессе игры — «начался снегопад» или «добавь медведя» без перегенерации сцены. В январе 2026-го открылся платный доступ для подписчиков Google ИИ Ultra в США с лимитом 60-секундных сессий. В феврале Waymo опубликовала собственный форк — Waymo World Model. В мае привязка к Street View стала доступна глобально.

Применение Waymo показывает, где мировые модели уже работают в продакшене. Чтобы научить роботакси реагировать на торнадо, нужно показать ему торнадо с точки зрения самой машины. Игровые движки с захардкоженной физикой давали неправдоподобный результат. Genie 3 воспроизводит эффекты убедительно, потому что обучен на реальном видео, и не требует программирования сценария — достаточно текстового описания. Waymo перечислила симулируемые ситуации: торнадо, наводнения, слоны на шоссе, пешеходы в костюмах динозавров, машины едущие против движения, грузовики, рассыпающие груз. Комбинации событий, которых никогда не было в реальных логах, теперь можно сгенерировать за секунды — притом что Waymo с 2009 года накопила десятки миллионов миль реальных данных.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ