Модели мира: как ИИ учат понимать физическую реальность

Подготовлено редакцией Malakhov AI

MIT Technology Review AI·21 апр.·2 минИсследования

Google DeepMind, стартап World Labs Фэй-Фэй Ли и OpenAI перераспределяют ресурсы в пользу так называемых «моделей мира» — систем, способных симулировать физическую среду и предсказывать последствия действий. Исследователи считают, что без этого подхода ИИ так и останется ненадёжным в реальных условиях.

Кратко

—Янн ЛеКун покинул Meta и основал стартап, сфокусированный на моделях мира.
—OpenAI закрыла видеоприложение Sora и направила команду на «долгосрочные исследования симуляции мира».
—LLM умеют давать маршруты по Манхэттену, но полностью теряются при малейших отклонениях от маршрута.
—Создатели Pokémon Go используют миллиарды снимков игроков для построения фрагментов модели мира для роботов-курьеров.
—Google DeepMind и World Labs строят интерактивные 3D-среды из текста, изображений и видео.

Глоссарий · 4 термина▾

Модель мира (world model): Внутреннее представление среды в интеллектуальной системе, позволяющее предсказывать последствия действий без их физического выполнения.
LLM: Large Language Model — большая языковая модель, нейросеть, обученная предсказывать следующий токен в тексте; основа большинства современных чат-ботов.
Агент (AI agent): Система ИИ, способная самостоятельно планировать и выполнять последовательность действий для достижения цели, взаимодействуя с внешней средой.
VR (виртуальная реальность): Технология создания иммерсивной цифровой среды, в которую пользователь погружается с помощью специального оборудования.

Сложить бельё или пройти по городской улице оказалось значительно труднее, чем написать роман или сгенерировать код. Это не парадокс, а следствие архитектуры современных языковых моделей: они обрабатывают текст, но не строят внутреннего представления о физическом мире. Именно эту проблему призваны решить так называемые модели мира — концепция, которая переживает второе рождение благодаря усилиям сразу нескольких крупных игроков.

Модель мира — это внутренняя симуляция среды, которую интеллектуальная система использует, чтобы предсказывать последствия своих действий. Люди пользуются чем-то похожим постоянно: мозг достаточно точно моделирует окружение, чтобы мы могли предвидеть, что произойдёт, если смахнуть кружку со стола, не проверяя это экспериментально. LLM на первый взгляд справляются с похожими задачами — они могут описать падение кружки. Однако их «понимание» хрупко. Исследование показало: языковая модель, обученная на данных о поездках нью-йоркских такси, прокладывает маршруты по Манхэттену — но стоит потребовать объезда, и она полностью теряется. Это означает, что модель запомнила паттерны, а не построила карту города.

Идея моделей мира не нова — она восходит к работам в области когнитивной науки и робототехники десятилетней давности. Но сейчас вокруг неё концентрируются серьёзные ресурсы. Янн ЛеКун, долгое время возглавлявший исследовательское подразделение Meta AI, покинул компанию и основал стартап, сфокусированный именно на этом направлении. Стэнфордский профессор Фэй-Фэй Ли запустила World Labs. OpenAI закрыла потребительское приложение Sora и перенаправила команду на «долгосрочные исследования симуляции мира». Google DeepMind работает над генерацией интерактивных трёхмерных сред из текстовых и визуальных подсказок.

OpenAI закрыла видеоприложение Sora и направила команду на «долгосрочные исследования симуляции мира».

Практические применения пока скромнее амбиций. Создатели Pokémon Go собрали миллиарды снимков с устройств игроков и используют их для построения первых фрагментов модели мира, которая в перспективе должна помогать роботам-курьерам ориентироваться на улицах. World Labs и Google DeepMind генерируют трёхмерные виртуальные среды — инструмент полезный для разработки игр и VR, но с ограниченным кругом применений по сравнению с универсальными языковыми моделями. Фэй-Фэй Ли писала о роботах для исследования глубин океана и помощи медицинскому персоналу, однако до таких сценариев ещё далеко.

Главная ставка исследователей — интеграция моделей мира в гибких агентов, способных одновременно представлять среду, прогнозировать последствия действий и принимать решения. Это принципиально иной подход по сравнению с масштабированием LLM: вместо увеличения объёма обучающих данных предлагается изменить саму архитектуру понимания. Насколько этот путь окажется короче — покажут ближайшие годы.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ