Сбер опубликовал KVAE-2.0 — следующее поколение токенизаторов для видео и изображений, пришедшее на смену KVAE-1.0, вышедшему несколько месяцев назад. Новое семейство включает две модели с разными степенями пространственного сжатия: 4x8x8, сохраняющую совместимость с предыдущим поколением, и 4x16x16 с более агрессивным сжатием. Код и веса обеих моделей выложены в открытый доступ.
Повышение степени пространственного сжатия — общая тенденция на рынке открытых решений. Hunyuan-Video и Wan перешли с 4x8x8 на 4x16x16, увеличив число каналов с 16 до 32 и 48 соответственно. NVidia, опираясь на опыт DC-AE, предложила автоэнкодер для форматов 4x32x32 и 4x64x64. На противоположном полюсе — LTX-Video-2, сохранившая сжатие 8x32x32 с первой версии и компенсирующая малый размер латента увеличением числа каналов. Сбер в KVAE-2.0 следует мейнстримному подходу: переход к 4x16x16 позволяет уменьшить размер патча в генеративной модели с 2x2 до 1x1, полностью перекладывая понижение размерности на токенизатор.
Архитектурно KVAE-2.0 остаётся каузальным автоэнкодером на свёрточных слоях, однако в нём устранён ряд узких мест предшественника. В KVAE-1.0 каждый downsample-слой увеличивал число каналов менее чем вдвое, что приводило к частичной потере информации. Теперь этот дисбаланс исправлен. Второе ключевое изменение — замена GroupNorm на RMSNorm с покадровой нормализацией. В предыдущей версии статистики считались по группе из 16–17 кадров, что создавало трудности при обучении и инференсе; фиксированный размер сегмента ограничивал работу на высоких разрешениях. Покадровый RMSNorm снимает это ограничение: при нехватке памяти достаточно уменьшить число одновременно обрабатываемых кадров. В модели 4x16x16 соотношение весов энкодера к декодеру доведено до 5,3 — против 1,3 в KVAE-1.0 и KVAE-2.0 4x8x8. Это достигается снижением числа каналов в свёрточных слоях энкодера и их увеличением в декодере; в сочетании с файнтюном декодера через дискриминатор на финальных шагах обучения такой подход позволяет сохранять высокочастотные детали.
GroupNorm заменён на покадровый RMSNorm — это устранило проблемы с инференсом при переменной длине сегмента.
Для сравнения использовались открытые датасеты MCL-JCV (разрешение 1280x720) и BVI-DVC. В формате 4x8x8 конкурентами выступили Wan-2.1 и HunyuanVideo-1.0, в формате 4x16x16 — Wan-2.2 и HunyuanVideo-1.5. Инференс проводился через библиотеку diffusers; для HunyuanVideo применялся тайлинг по умолчанию. По метрикам PSNR, SSIM и LPIPS KVAE-2.0 превзошёл обоих конкурентов в обоих форматах. Визуальные примеры демонстрируют, что HunyuanVideo-1.5 и Wan-2.1 вносят артефакты на лицах актёров и смазывают мелкие детали — например, цифры на спортивной форме.
Помимо объективных метрик, команда провела side-by-side оценку с участием пользователей: каждому показывали пары изображений, сгенерированных по одному промпту разными токенизаторами, и просили оценить следование промпту, визуальное и семантическое качество. Условия сравнения были зафиксированы: одинаковый обучающий датасет, архитектура и гиперпараметры генеративной модели. По результатам оценки диффузионная модель с KVAE-2.0 4x16x16 чаще выигрывала у модели с HunyuanVideo-1.5, особенно по семантической составляющей.
Отдельно доработан обучающий датасет: видеоряд из KVAE-1.0 расширен и отфильтрован с акцентом на высокую динамичность сцен. Вероятность попадания изображения в батч повышена с 0,2 до 0,3 — это положительно сказалось на качестве восстановления статичных кадров. При обучении команда также использовала оценки diffusability латентного пространства, рассматривая их как ключевой индикатор пригодности токенизатора для последующего обучения диффузионной модели.


