Авторы проверили три нейросети — Qwen, Luma и Pika — на задаче генерации короткого видео с таймлапсом роста березы. В промпте требовалось показать, как саженец вырастает в большое дерево, смена времен года, смена дня и ночи, и фон с холмами. Все модели работают по разным архитектурам: Qwen — open-weights языковая модель, Luma использует DiT (Diffusion Transformer), а Pika — оптимизированные латентные диффузионные модели.

Qwen не смогла удержать долгосрочный контекст: на видео исчезали ели и холмы, солнце двигалось по неестественной траектории, а смена листьев происходила слишком резко. Luma, напротив, показала плавную смену времен года, реалистичную физику облаков и снега, но не показала рост самого дерева — главное требование промпта. Pika сгенерировала реалистичный рост дерева, но листья почти не меняли цвет по сезонам, а туман оставался статичным. Ни одна из моделей не смогла полностью выполнить все пункты.

Это демонстрирует, что современные нейросети видеогенерации еще далеки от идеала: каждая имеет уникальные ограничения. По сравнению с флагманскими моделями вроде Sora или Runway, протестированные решения показывают более узкие возможности, но их доступность (Qwen как open-source) и скорость (Pika) делают их привлекательными для экспериментов. Для инженеров и пользователей это означает необходимость выбирать инструмент под конкретную задачу и тщательно проверять результаты, особенно в сценариях с длинным промптом и точным следованием временным изменениям.