WorldReasonBench: видеогенераторы красиво выглядят, но не понимают физику мира

The Decoder·5 часов назад·3 минИсследованияИндустрия

Исследователи Университета Цинхуа опубликовали бенчмарк WorldReasonBench, который проверяет не визуальное качество видео, а способность модели продолжить сцену физически, логически и социально корректно. Seedance 2.0 от ByteDance занял первое место, однако логическое мышление оказалось слабым местом абсолютно всех протестированных систем.

Кратко

—WorldReasonBench включает около 400 тест-кейсов в четырёх категориях: физика мира, сцены с людьми, логика и работа с информацией.
—Коммерческие модели набирают примерно вдвое больше очков, чем open-source аналоги, без статистического перекрытия между группами.
—Seedance 2.0 лидирует в общем зачёте, Veo 3.1-Fast — в знаниях о мире, Sora 2 — в сценах с людьми.
—Логическое рассуждение — самая слабая категория для всех моделей: даже лучшие коммерческие системы проваливаются ниже своих средних показателей.
—Метрика процессно-ориентированной оценки коррелирует с суждениями 15 обученных аннотаторов и превосходит традиционные попарные ИИ-судьи.

Глоссарий · 5 терминов▾

бенчмарк: Стандартизированный набор тестов для сравнения производительности разных моделей или систем по единой шкале.
world model (модель мира): Система, способная не просто генерировать правдоподобные изображения или видео, но и моделировать причинно-следственные связи и законы физического мира.
open-source модель: Модель с открытыми весами и/или кодом, доступная для самостоятельного запуска и модификации без лицензионных ограничений.
процессно-ориентированная оценка: Метод проверки, при котором оценивается не только конечный результат, но и правдоподобность пути к нему — промежуточные состояния сцены.
временна́я согласованность: Свойство видео, при котором объекты, текст и физические состояния остаются логически непротиворечивыми от кадра к кадру.

Видеогенераторы научились делать плавные, реалистично выглядящие ролики — но стандартные метрики качества этого не замечают принципиальной проблемы: модель может нарисовать яблоко, которое при падении летит вверх или лопается как шарик, и всё равно получить высокий балл за «реализм». Именно этот разрыв между визуальным качеством и пониманием мира зафиксировал WorldReasonBench — бенчмарк, опубликованный командой Университета Цинхуа в мае 2025 года.

Вместо того чтобы оценивать чёткость пикселей или плавность движения, бенчмарк ставит перед моделью задачу: взять начальный кадр и продолжить сцену так, чтобы это имело смысл — физически, социально, логически и информационно. Около 400 тест-кейсов разбиты на четыре области: знания о мире (физика, погода, культурные нормы), сцены с участием людей (обращение с предметами, социальное взаимодействие), логическое рассуждение (математика, геометрия, научные эксперименты) и работа с информацией (чтение данных и диаграмм). Оценка двухэтапная: сначала структурированные вопросы проверяют, достигла ли сцена правильного конечного состояния правдоподобным путём, затем второй проход оценивает качество рассуждений, временну́ю согласованность и визуальную эстетику.

Модель	Тип	Лучший результат в категории
Seedance 2.0	Коммерческая	Общий зачёт, человеческие оценки
Veo 3.1-Fast	Коммерческая	Знания о мире
Sora 2	Коммерческая	Сцены с людьми
Kling	Коммерческая	—
Wan 2.6	Коммерческая	—
LTX 2.3	Open-source	—
Wan 2.2-14B	Open-source	—
HunyuanVideo 1.5	Open-source	—
Cosmos-Predict 2.5	Open-source	—
LongCat-Video	Open-source	—
UniVideo	Open-source	—

Параллельно команда выпустила WorldRewardBench — датасет из примерно 6 000 видеосравнений, размеченных обученными аннотаторами. Пятнадцать специалистов оценивали восемь анонимизированных видео на кейс по трём осям, не зная, какая модель что сгенерировала. Итоговая метрика хорошо коррелирует с человеческими суждениями и явно превосходит традиционные ИИ-судьи, сравнивающие видео попарно.

Коммерческие модели набирают примерно вдвое больше очков, чем open-source аналоги, без статистического перекрытия между группами.

WorldReasonBench breaks video generator evaluation into four reasoning dimensions with 22 subcategories, from physical mechanics to diagram logic. | Image: Wu et al. · Источник: The Decoder

В тестировании участвовали пять коммерческих систем — Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast — и шесть open-source моделей: LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video. Коммерческие генераторы набрали примерно вдвое больше очков по ключевой метрике рассуждений, причём статистического перекрытия между двумя группами нет. Seedance 2.0 от ByteDance занял первое место, финишируя первым примерно в девяти из десяти статистических перезапусков. Veo 3.1-Fast показал лучший результат в категории знаний о мире, Sora 2 лидировал в сценах с людьми.

Но важнее рейтинга — общая слабость: логическое рассуждение оказалось самой трудной категорией для всех без исключения моделей. Даже лучшие коммерческие системы здесь падают заметно ниже своих средних показателей, большинство open-source моделей проваливают эту категорию почти полностью. Вторая по сложности область — работа с информацией, особенно когда задача требует физически обоснованных переходов или точного сохранения текста и чисел в кадре.

Отдельный индикатор — метрика, отслеживающая долю правильных ответов, полученных в динамических, процессных фазах, а не на статичных снимках. Коммерческие модели значительно опережают open-source здесь, что указывает на реальный дефицит последних: не в том, как вещи выглядят, а в понимании причинно-следственных связей. Показательно, что open-source генераторы сильнее всего улучшаются при детализированных промптах, которые шаг за шагом описывают, что должно произойти, — то есть они в большей степени зависят от качества запроса, чем коммерческие конкуренты.

Результаты вписываются в продолжающуюся дискуссию о том, являются ли видеогенераторы «моделями мира» в каком-либо содержательном смысле. Ян ЛеКун из Meta считает системы вроде Sora тупиковым путём; Демис Хассабис из DeepMind видит в Veo шаг к модели мира. OpenAI закрыла Sora как коммерческий видеосервис, сохранив команду для исследований в области world model. Предложенное определение OpenWorldLib и вовсе явно исключает чистые text-to-video модели из этой категории. Бенчмарк, данные и код опубликованы на GitHub.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме