Советский мультфильм из нейросети: сравнение Kandinsky, LTX и Wan 2.2 на домашнем GPU

Подготовлено редакцией Malakhov AI

Habr AI·6 часов назад·3 минРоссияКод

На RTX 5070 Ti с 16 ГБ видеопамяти автор сгенерировал три версии мультфильма по сказке «Колосок», запустив локально модели Kandinsky 5.0 Lite, LTX и Wan 2.2 через ComfyUI. Лучший результат дал российский Kandinsky — при времени генерации 30–40 минут на восемь секунд видео.

Кратко

—Три модели — Kandinsky 5.0 Lite (2B), LTX (2B) и Wan 2.2 (5B) — запущены локально через ComfyUI без дообучения.
—Параметры генерации: 768×512 пикселей, 24 fps, 192 кадра (~8 секунд), время на клип — 30–40 минут.
—Kandinsky 5.0 Lite признан победителем: лучше всего передал стилистику советской мультипликации.
—LTX выдал преимущественно шум, Wan 2.2 — приемлемое качество, но со стилистическими проблемами.
—Промты для каждой сцены генерировались с помощью DeepSeek и Gemini, запросы отправлялись через curl в API ComfyUI.

Глоссарий · 7 терминов▾

ComfyUI: Графический фреймворк с визуальным редактором пайплайнов для запуска нейросетевых моделей локально или на сервере, без написания кода.
DiT (Diffusion Transformer): Архитектура диффузионных моделей, в которой вместо свёрточных сетей используется трансформер — обеспечивает лучшее масштабирование и качество генерации.
VAE (Variational Autoencoder): Вариационный автоэнкодер — компонент генеративной модели, который сжимает изображение или видео в компактное представление и восстанавливает его обратно.
FP16 / FP8: Форматы хранения весов нейросети с пониженной точностью (16-битные и 8-битные числа с плавающей точкой), позволяющие уменьшить потребление видеопамяти.
OOMKill: Принудительное завершение процесса операционной системой из-за нехватки оперативной или видеопамяти (Out Of Memory Kill).
OpenRAIL-M: Лицензия для открытых моделей машинного обучения, разрешающая коммерческое использование при соблюдении ограничений на вредоносные применения.
Текстовый энкодер: Компонент модели, преобразующий текстовый промт в числовое представление (эмбеддинг), которое затем управляет процессом генерации изображения или видео.

Генерация видео на локальном железе перестала быть уделом исследовательских лабораторий: сегодня достаточно мощной видеокарты и открытых моделей, чтобы получить результат прямо на домашней машине. Один из разработчиков решил проверить это на практике, взяв за основу украинскую народную сказку «Колосок» и поставив задачу воспроизвести эстетику советской мультипликации 1970–80-х годов.

Для экспериментов использовалась машина на базе Intel Core i9-13900K, 32 ГБ оперативной памяти и видеокарты Nvidia GeForce RTX 5070 Ti с 16 ГБ видеопамяти. Дополнительно подключили 10 ГБ свопа — без него модели завершались с ошибкой OOMKill из-за нехватки памяти. Оркестровать генерацию помог ComfyUI — графический фреймворк для построения пайплайнов работы с нейросетями, который поддерживает большинство популярных open-source моделей и позволяет запускать их без написания кода.

Модель	Параметры	Точность	Текстовый энкодер	Качество результата	Время на клип (8 сек)
Kandinsky 5.0 Lite	2B	FP16	Qwen 2.5 VL 7B (FP8) + CLIP-L	Победитель	30–40 мин
LTX v0.9.5	2B	bfloat16	T5-XXL 11B (FP16)	В основном шум	~30–40 мин
Wan 2.2	5B	FP16	UMT5-XXL 11B (FP8)	Приемлемо, стилистика нестабильна	~30–40 мин

В тест вошли три модели. Kandinsky 5.0 Lite от российской лаборатории Sber ИИ Research — облегчённая версия на 2B параметров с архитектурой DiT, текстовым энкодером на базе Qwen 2.5 VL (7B, FP8) и дополнительным CLIP-L. LTX — также 2B-модель с архитектурой DiT, лицензия OpenRAIL-M допускает коммерческое использование; в качестве текстового энкодера используется T5-XXL на 11B параметров. Wan 2.2 — наиболее тяжёлая из трёх, 5B параметров, Dense Transformer, текстовый энкодер UMT5-XXL (11B, FP8), трёхмерный VAE со сжатием 16×16×4. Четвёртая модель, CogVideo, тоже запускалась, но результаты были утеряны и в сравнение не вошла.

Параметры генерации: 768×512 пикселей, 24 fps, 192 кадра (~8 секунд), время на клип — 30–40 минут.

Все клипы генерировались с одинаковыми параметрами: разрешение 768×512, частота 24 fps, длина 192 кадра — около восьми секунд на сцену. Сценарий сказки был разбит на сцены вручную, промты для каждой сцены составлялись с помощью DeepSeek и Gemini. Запросы отправлялись через curl в API ComfyUI, компьютер работал в автономном режиме около суток. Готовые клипы смонтированы в Adobe Premiere Pro.

По итогам сравнения Kandinsky 5.0 Lite оказался наиболее точным в передаче заданного стиля: плоская заливка, мягкие границы цветов, тёплая палитра, отсутствие жёстких контуров — всё это соответствовало промтам, описывавшим эстетику «Союзмультфильма». Wan 2.2 дал приемлемое качество движения, но стилистика оказалась нестабильной. LTX в большинстве сцен сгенерировал преимущественно шум, не справившись с задачей. Время генерации у всех трёх моделей оказалось сопоставимым — 30–40 минут на восьмисекундный клип.

Контекст важен: Kandinsky изначально разрабатывался с упором на художественные стили и работу с изображениями, а видеоветка модели унаследовала этот акцент. LTX, несмотря на открытую коммерческую лицензию, ориентирован скорее на реалистичный видеоконтент и при стилизованных задачах уступает. Wan 2.2 позиционируется как универсальная модель, однако её преимущества раскрываются на более сложных сценах с динамикой, а не на стилизованной анимации.

Автор планирует в следующих итерациях добавить озвучку и речь персонажей. Результаты всех трёх мультфильмов опубликованы на его сайте и доступны для просмотра.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ