Qwen, Luma и Pika: тест видеогенерации на задаче роста березы

Подготовлено редакцией Malakhov AI

Habr AI·16 июн.·1 минРоссияКод

Эксперимент с генерацией таймлапса роста березы показал, что ни одна из трех моделей — Qwen, Luma и Pika — не смогла полностью выполнить требования промпта, выявив разные ограничения: от проблем с консистентностью фона до игнорирования ключевых сцен.

Кратко

—Qwen показала проблемы с удержанием фона: холмы и ели исчезали или перемещались, солнце двигалось неестественно.
—Luma качественно воспроизвела смену времен года и физику, но не смогла показать рост дерева.
—Pika реалистично увеличила дерево, но листья не меняли цвет по сезонам, а туман оставался статичным.
—Ни одна модель не справилась со всеми пунктами промпта — это подчеркивает ограничения современных нейросетей видеогенерации.

Глоссарий · 3 термина▾

DiT (Diffusion Transformer): Архитектура генеративных моделей, объединяющая диффузионные процессы с трансформерами для улучшения качества видео и изображений.
латентные диффузионные модели: Тип диффузионных моделей, которые работают в сжатом пространстве признаков (латентном пространстве) для ускорения генерации.
open-weights: Модели, чьи обученные веса опубликованы в открытом доступе, позволяя использовать их локально без обращения к облаку.

Авторы проверили три нейросети — Qwen, Luma и Pika — на задаче генерации короткого видео с таймлапсом роста березы. В промпте требовалось показать, как саженец вырастает в большое дерево, смена времен года, смена дня и ночи, и фон с холмами. Все модели работают по разным архитектурам: Qwen — open-weights языковая модель, Luma использует DiT (Diffusion Transformer), а Pika — оптимизированные латентные диффузионные модели.

Qwen не смогла удержать долгосрочный контекст: на видео исчезали ели и холмы, солнце двигалось по неестественной траектории, а смена листьев происходила слишком резко. Luma, напротив, показала плавную смену времен года, реалистичную физику облаков и снега, но не показала рост самого дерева — главное требование промпта. Pika сгенерировала реалистичный рост дерева, но листья почти не меняли цвет по сезонам, а туман оставался статичным. Ни одна из моделей не смогла полностью выполнить все пункты.

Это демонстрирует, что современные нейросети видеогенерации еще далеки от идеала: каждая имеет уникальные ограничения. По сравнению с флагманскими моделями вроде Sora или Runway, протестированные решения показывают более узкие возможности, но их доступность (Qwen как open-source) и скорость (Pika) делают их привлекательными для экспериментов. Для инженеров и пользователей это означает необходимость выбирать инструмент под конкретную задачу и тщательно проверять результаты, особенно в сценариях с длинным промптом и точным следованием временным изменениям.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Qwen, Luma и Pika: тест видеогенерации на задаче роста березы

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений