Генерация видео на локальном железе перестала быть уделом исследовательских лабораторий: сегодня достаточно мощной видеокарты и открытых моделей, чтобы получить результат прямо на домашней машине. Один из разработчиков решил проверить это на практике, взяв за основу украинскую народную сказку «Колосок» и поставив задачу воспроизвести эстетику советской мультипликации 1970–80-х годов.
Для экспериментов использовалась машина на базе Intel Core i9-13900K, 32 ГБ оперативной памяти и видеокарты Nvidia GeForce RTX 5070 Ti с 16 ГБ видеопамяти. Дополнительно подключили 10 ГБ свопа — без него модели завершались с ошибкой OOMKill из-за нехватки памяти. Оркестровать генерацию помог ComfyUI — графический фреймворк для построения пайплайнов работы с нейросетями, который поддерживает большинство популярных open-source моделей и позволяет запускать их без написания кода.
| Модель | Параметры | Точность | Текстовый энкодер | Качество результата | Время на клип (8 сек) |
|---|---|---|---|---|---|
| Kandinsky 5.0 Lite | 2B | FP16 | Qwen 2.5 VL 7B (FP8) + CLIP-L | Победитель | 30–40 мин |
| LTX v0.9.5 | 2B | bfloat16 | T5-XXL 11B (FP16) | В основном шум | ~30–40 мин |
| Wan 2.2 | 5B | FP16 | UMT5-XXL 11B (FP8) | Приемлемо, стилистика нестабильна | ~30–40 мин |
В тест вошли три модели. Kandinsky 5.0 Lite от российской лаборатории Sber ИИ Research — облегчённая версия на 2B параметров с архитектурой DiT, текстовым энкодером на базе Qwen 2.5 VL (7B, FP8) и дополнительным CLIP-L. LTX — также 2B-модель с архитектурой DiT, лицензия OpenRAIL-M допускает коммерческое использование; в качестве текстового энкодера используется T5-XXL на 11B параметров. Wan 2.2 — наиболее тяжёлая из трёх, 5B параметров, Dense Transformer, текстовый энкодер UMT5-XXL (11B, FP8), трёхмерный VAE со сжатием 16×16×4. Четвёртая модель, CogVideo, тоже запускалась, но результаты были утеряны и в сравнение не вошла.
Параметры генерации: 768×512 пикселей, 24 fps, 192 кадра (~8 секунд), время на клип — 30–40 минут.
Все клипы генерировались с одинаковыми параметрами: разрешение 768×512, частота 24 fps, длина 192 кадра — около восьми секунд на сцену. Сценарий сказки был разбит на сцены вручную, промты для каждой сцены составлялись с помощью DeepSeek и Gemini. Запросы отправлялись через curl в API ComfyUI, компьютер работал в автономном режиме около суток. Готовые клипы смонтированы в Adobe Premiere Pro.
По итогам сравнения Kandinsky 5.0 Lite оказался наиболее точным в передаче заданного стиля: плоская заливка, мягкие границы цветов, тёплая палитра, отсутствие жёстких контуров — всё это соответствовало промтам, описывавшим эстетику «Союзмультфильма». Wan 2.2 дал приемлемое качество движения, но стилистика оказалась нестабильной. LTX в большинстве сцен сгенерировал преимущественно шум, не справившись с задачей. Время генерации у всех трёх моделей оказалось сопоставимым — 30–40 минут на восьмисекундный клип.
Контекст важен: Kandinsky изначально разрабатывался с упором на художественные стили и работу с изображениями, а видеоветка модели унаследовала этот акцент. LTX, несмотря на открытую коммерческую лицензию, ориентирован скорее на реалистичный видеоконтент и при стилизованных задачах уступает. Wan 2.2 позиционируется как универсальная модель, однако её преимущества раскрываются на более сложных сценах с динамикой, а не на стилизованной анимации.
Автор планирует в следующих итерациях добавить озвучку и речь персонажей. Результаты всех трёх мультфильмов опубликованы на его сайте и доступны для просмотра.