Сложить бельё или пройти по городской улице оказалось значительно труднее, чем написать роман или сгенерировать код. Это не парадокс, а следствие архитектуры современных языковых моделей: они обрабатывают текст, но не строят внутреннего представления о физическом мире. Именно эту проблему призваны решить так называемые модели мира — концепция, которая переживает второе рождение благодаря усилиям сразу нескольких крупных игроков.
Модель мира — это внутренняя симуляция среды, которую интеллектуальная система использует, чтобы предсказывать последствия своих действий. Люди пользуются чем-то похожим постоянно: мозг достаточно точно моделирует окружение, чтобы мы могли предвидеть, что произойдёт, если смахнуть кружку со стола, не проверяя это экспериментально. LLM на первый взгляд справляются с похожими задачами — они могут описать падение кружки. Однако их «понимание» хрупко. Исследование показало: языковая модель, обученная на данных о поездках нью-йоркских такси, прокладывает маршруты по Манхэттену — но стоит потребовать объезда, и она полностью теряется. Это означает, что модель запомнила паттерны, а не построила карту города.
Идея моделей мира не нова — она восходит к работам в области когнитивной науки и робототехники десятилетней давности. Но сейчас вокруг неё концентрируются серьёзные ресурсы. Янн ЛеКун, долгое время возглавлявший исследовательское подразделение Meta AI, покинул компанию и основал стартап, сфокусированный именно на этом направлении. Стэнфордский профессор Фэй-Фэй Ли запустила World Labs. OpenAI закрыла потребительское приложение Sora и перенаправила команду на «долгосрочные исследования симуляции мира». Google DeepMind работает над генерацией интерактивных трёхмерных сред из текстовых и визуальных подсказок.
OpenAI закрыла видеоприложение Sora и направила команду на «долгосрочные исследования симуляции мира».

Практические применения пока скромнее амбиций. Создатели Pokémon Go собрали миллиарды снимков с устройств игроков и используют их для построения первых фрагментов модели мира, которая в перспективе должна помогать роботам-курьерам ориентироваться на улицах. World Labs и Google DeepMind генерируют трёхмерные виртуальные среды — инструмент полезный для разработки игр и VR, но с ограниченным кругом применений по сравнению с универсальными языковыми моделями. Фэй-Фэй Ли писала о роботах для исследования глубин океана и помощи медицинскому персоналу, однако до таких сценариев ещё далеко.
Главная ставка исследователей — интеграция моделей мира в гибких агентов, способных одновременно представлять среду, прогнозировать последствия действий и принимать решения. Это принципиально иной подход по сравнению с масштабированием LLM: вместо увеличения объёма обучающих данных предлагается изменить саму архитектуру понимания. Насколько этот путь окажется короче — покажут ближайшие годы.

