Модель Waypoint-1.5, разработанная компанией Overworld, генерирует трёхмерные интерактивные окружения в реальном времени непосредственно на потребительском железе. На видеокартах серии RTX 3090–5090 система выдаёт картинку в разрешении 720p при 60 кадрах в секунду — без обращения к облачным серверам. Параллельно выпущен облегчённый вариант модели с разрешением 360p, ориентированный на игровые ноутбуки; поддержка Apple Silicon Mac анонсирована как ближайший шаг.
Генеративные видеомодели существуют уже несколько лет, однако большинство из них работают в режиме «запрос — ожидание — результат»: пользователь задаёт параметры, модель рендерит видеоролик, и только потом его можно посмотреть. Waypoint устроен иначе — это world model, то есть система, которая не просто рисует картинку, а симулирует среду, реагирующую на действия пользователя в реальном времени. Концептуально это ближе к игровому движку, чем к генератору видео: мир не воспроизводится, а вычисляется покадрово по мере того, как пользователь в нём перемещается.
Первая версия Waypoint показала принципиальную осуществимость такого подхода. Waypoint-1.5 делает его практичным: объём обучающих данных вырос почти в 100 раз, что заметно улучшило пространственную связность генерируемых окружений и стабильность движения объектов во времени. Кроме того, в архитектуру внесены оптимизации, снижающие избыточные вычисления между соседними кадрами, — именно это позволяет удерживать частоту кадров на уровне, пригодном для интерактивного использования.
Введён облегчённый режим 360p для игровых ноутбуков и (в ближайшее время) Apple Silicon Mac.
Для запуска доступны два пути. Первый — локальный клиент Biome: обновлённый установщик сводит процесс от скачивания до работающей модели к нескольким минутам. Второй — браузерный сервис Overworld Stream по адресу overworld.stream, не требующий никакой локальной установки. Веса обеих версий модели — Waypoint-1.5-1B и Waypoint-1.5-1B-360P — опубликованы на Hugging Face Hub. Для разработчиков доступна библиотека World Engine, на которой построены официальные клиенты и около десятка сторонних интеграций.
Контекст важен: крупнейшие игроки в области генеративного видео — Google DeepMind с Genie 2, Runway, Sora от OpenAI — делают ставку на визуальное качество и масштаб, но их системы либо недоступны широкой аудитории, либо требуют облачной инфраструктуры. Overworld занимает другую нишу: ставка на локальный запуск и минимальную задержку отклика. Если world models останутся инструментом дата-центров, они будут интересны исследователям. Если они заработают на потребительском железе, появляется основа для нового класса приложений — от инструментов для разработчиков игр до интерактивных обучающих симуляторов.


