Сбер выпустил KVAE-2.0 — открытый токенизатор видео, обошедший Wan 2.2 и HunyuanVideo 1.5

Сбер опубликовал код и веса KVAE-2.0 — двух новых видеотокенизаторов, которые по метрикам PSNR, SSIM и LPIPS превосходят Wan 2.2 и HunyuanVideo 1.5. Модели поддерживают форматы сжатия 4x8x8 и 4x16x16 и доступны в открытом доступе.

Сбер опубликовал KVAE-2.0 — следующее поколение токенизаторов для видео и изображений, пришедшее на смену KVAE-1.0, вышедшему несколько месяцев назад. Новое семейство включает две модели с разными степенями пространственного сжатия: 4x8x8, сохраняющую совместимость с предыдущим поколением, и 4x16x16 с более агрессивным сжатием. Код и веса обеих моделей выложены в открытый доступ.

Повышение степени пространственного сжатия — общая тенденция на рынке открытых решений. Hunyuan-Video и Wan перешли с 4x8x8 на 4x16x16, увеличив число каналов с 16 до 32 и 48 соответственно. NVidia, опираясь на опыт DC-AE, предложила автоэнкодер для форматов 4x32x32 и 4x64x64. На противоположном полюсе — LTX-Video-2, сохранившая сжатие 8x32x32 с первой версии и компенсирующая малый размер латента увеличением числа каналов. Сбер в KVAE-2.0 следует мейнстримному подходу: переход к 4x16x16 позволяет уменьшить размер патча в генеративной модели с 2x2 до 1x1, полностью перекладывая понижение размерности на токенизатор.

Архитектурно KVAE-2.0 остаётся каузальным автоэнкодером на свёрточных слоях, однако в нём устранён ряд узких мест предшественника. В KVAE-1.0 каждый downsample-слой увеличивал число каналов менее чем вдвое, что приводило к частичной потере информации. Теперь этот дисбаланс исправлен. Второе ключевое изменение — замена GroupNorm на RMSNorm с покадровой нормализацией. В предыдущей версии статистики считались по группе из 16–17 кадров, что создавало трудности при обучении и инференсе; фиксированный размер сегмента ограничивал работу на высоких разрешениях. Покадровый RMSNorm снимает это ограничение: при нехватке памяти достаточно уменьшить число одновременно обрабатываемых кадров. В модели 4x16x16 соотношение весов энкодера к декодеру доведено до 5,3 — против 1,3 в KVAE-1.0 и KVAE-2.0 4x8x8. Это достигается снижением числа каналов в свёрточных слоях энкодера и их увеличением в декодере; в сочетании с файнтюном декодера через дискриминатор на финальных шагах обучения такой подход позволяет сохранять высокочастотные детали.

GroupNorm заменён на покадровый RMSNorm — это устранило проблемы с инференсом при переменной длине сегмента.

Для сравнения использовались открытые датасеты MCL-JCV (разрешение 1280x720) и BVI-DVC. В формате 4x8x8 конкурентами выступили Wan-2.1 и HunyuanVideo-1.0, в формате 4x16x16 — Wan-2.2 и HunyuanVideo-1.5. Инференс проводился через библиотеку diffusers; для HunyuanVideo применялся тайлинг по умолчанию. По метрикам PSNR, SSIM и LPIPS KVAE-2.0 превзошёл обоих конкурентов в обоих форматах. Визуальные примеры демонстрируют, что HunyuanVideo-1.5 и Wan-2.1 вносят артефакты на лицах актёров и смазывают мелкие детали — например, цифры на спортивной форме.

Помимо объективных метрик, команда провела side-by-side оценку с участием пользователей: каждому показывали пары изображений, сгенерированных по одному промпту разными токенизаторами, и просили оценить следование промпту, визуальное и семантическое качество. Условия сравнения были зафиксированы: одинаковый обучающий датасет, архитектура и гиперпараметры генеративной модели. По результатам оценки диффузионная модель с KVAE-2.0 4x16x16 чаще выигрывала у модели с HunyuanVideo-1.5, особенно по семантической составляющей.

Отдельно доработан обучающий датасет: видеоряд из KVAE-1.0 расширен и отфильтрован с акцентом на высокую динамичность сцен. Вероятность попадания изображения в батч повышена с 0,2 до 0,3 — это положительно сказалось на качестве восстановления статичных кадров. При обучении команда также использовала оценки diffusability латентного пространства, рассматривая их как ключевой индикатор пригодности токенизатора для последующего обучения диффузионной модели.

Сбер выпустил KVAE-2.0 — открытый токенизатор видео, обошедший Wan 2.2 и HunyuanVideo 1.5

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Amazon Bedrock AgentCore Browser получил поддержку Chrome-политик и корневых сертификатов