Видеогенераторы научились делать плавные, реалистично выглядящие ролики — но стандартные метрики качества этого не замечают принципиальной проблемы: модель может нарисовать яблоко, которое при падении летит вверх или лопается как шарик, и всё равно получить высокий балл за «реализм». Именно этот разрыв между визуальным качеством и пониманием мира зафиксировал WorldReasonBench — бенчмарк, опубликованный командой Университета Цинхуа в мае 2025 года.
Вместо того чтобы оценивать чёткость пикселей или плавность движения, бенчмарк ставит перед моделью задачу: взять начальный кадр и продолжить сцену так, чтобы это имело смысл — физически, социально, логически и информационно. Около 400 тест-кейсов разбиты на четыре области: знания о мире (физика, погода, культурные нормы), сцены с участием людей (обращение с предметами, социальное взаимодействие), логическое рассуждение (математика, геометрия, научные эксперименты) и работа с информацией (чтение данных и диаграмм). Оценка двухэтапная: сначала структурированные вопросы проверяют, достигла ли сцена правильного конечного состояния правдоподобным путём, затем второй проход оценивает качество рассуждений, временну́ю согласованность и визуальную эстетику.
| Модель | Тип | Лучший результат в категории |
|---|---|---|
| Seedance 2.0 | Коммерческая | Общий зачёт, человеческие оценки |
| Veo 3.1-Fast | Коммерческая | Знания о мире |
| Sora 2 | Коммерческая | Сцены с людьми |
| Kling | Коммерческая | — |
| Wan 2.6 | Коммерческая | — |
| LTX 2.3 | Open-source | — |
| Wan 2.2-14B | Open-source | — |
| HunyuanVideo 1.5 | Open-source | — |
| Cosmos-Predict 2.5 | Open-source | — |
| LongCat-Video | Open-source | — |
| UniVideo | Open-source | — |
Параллельно команда выпустила WorldRewardBench — датасет из примерно 6 000 видеосравнений, размеченных обученными аннотаторами. Пятнадцать специалистов оценивали восемь анонимизированных видео на кейс по трём осям, не зная, какая модель что сгенерировала. Итоговая метрика хорошо коррелирует с человеческими суждениями и явно превосходит традиционные ИИ-судьи, сравнивающие видео попарно.
Коммерческие модели набирают примерно вдвое больше очков, чем open-source аналоги, без статистического перекрытия между группами.

В тестировании участвовали пять коммерческих систем — Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast — и шесть open-source моделей: LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video. Коммерческие генераторы набрали примерно вдвое больше очков по ключевой метрике рассуждений, причём статистического перекрытия между двумя группами нет. Seedance 2.0 от ByteDance занял первое место, финишируя первым примерно в девяти из десяти статистических перезапусков. Veo 3.1-Fast показал лучший результат в категории знаний о мире, Sora 2 лидировал в сценах с людьми.
Но важнее рейтинга — общая слабость: логическое рассуждение оказалось самой трудной категорией для всех без исключения моделей. Даже лучшие коммерческие системы здесь падают заметно ниже своих средних показателей, большинство open-source моделей проваливают эту категорию почти полностью. Вторая по сложности область — работа с информацией, особенно когда задача требует физически обоснованных переходов или точного сохранения текста и чисел в кадре.
Отдельный индикатор — метрика, отслеживающая долю правильных ответов, полученных в динамических, процессных фазах, а не на статичных снимках. Коммерческие модели значительно опережают open-source здесь, что указывает на реальный дефицит последних: не в том, как вещи выглядят, а в понимании причинно-следственных связей. Показательно, что open-source генераторы сильнее всего улучшаются при детализированных промптах, которые шаг за шагом описывают, что должно произойти, — то есть они в большей степени зависят от качества запроса, чем коммерческие конкуренты.
Результаты вписываются в продолжающуюся дискуссию о том, являются ли видеогенераторы «моделями мира» в каком-либо содержательном смысле. Ян ЛеКун из Meta считает системы вроде Sora тупиковым путём; Демис Хассабис из DeepMind видит в Veo шаг к модели мира. OpenAI закрыла Sora как коммерческий видеосервис, сохранив команду для исследований в области world model. Предложенное определение OpenWorldLib и вовсе явно исключает чистые text-to-video модели из этой категории. Бенчмарк, данные и код опубликованы на GitHub.


