Сбер представил Kandinsky 6.0 Image Pro — обновлённую модель, которая совмещает генерацию изображений по текстовому запросу и их редактирование. Предыдущая линейка Kandinsky 5, включавшая отдельные модели Text-to-Image и Image Editing Lite, была анонсирована на конференции AI Journey в конце 2024 года. Новая версия объединяет оба режима в единой архитектуре.

С технической точки зрения ключевое изменение — переход к архитектуре MoE (Mixture of Experts). В отличие от классических трансформеров, где каждый токен проходит через все параметры сети, MoE активирует только часть «экспертных» блоков для каждого запроса. Это снижает вычислительную нагрузку при сопоставимом или лучшем качестве. В сочетании с оптимизацией механизма внимания и параллелизацией инференса это дало прирост скорости более 40% относительно Kandinsky 5.

МодельПозиция в сравнении
Kandinsky 6.0 Image ProНа уровне Flux 2 Max
Flux 2 Max (Black Forest Labs)На уровне Kandinsky 6.0 Image Pro
GPT Image 1 (OpenAI)Уступает Kandinsky 6.0 Image Pro

Вторая значимая новинка — механизм Image RAG. RAG (Retrieval-Augmented Generation) — подход, при котором модель перед генерацией обращается к внешней базе знаний и добавляет найденные данные в контекст. В случае Kandinsky 6.0 это база изображений: при запросе пользователя система ищет релевантные визуальные референсы и передаёт их модели. Практический эффект — модель корректно воспроизводит объекты российской культуры (мезенская роспись, картуз, советская архитектура) без дополнительного обучения. Базу можно пополнять в любой момент, что принципиально отличает этот подход от традиционного дообучения, требующего значительных вычислительных ресурсов.

Переход к архитектуре MoE и оптимизация механизма внимания ускорили инференс более чем на 40%.

Side-By-Side сравнения Kandinsky 6.0 Image Pro с другими моделями. Первое число над каждым столбцом — доля побед Kandinsky.
Side-By-Side сравнения Kandinsky 6.0 Image Pro с другими моделями. Первое число над каждым столбцом — доля побед Kandinsky. · Источник: Habr AI

Image RAG работает в обоих режимах — и при генерации с нуля, и при редактировании существующего изображения. Это позволяет, например, добавить на фото реального пользователя персонажа из кино, сохранив стилистику исходного снимка.

По части редактирования модель поддерживает широкий набор операций: удаление объектов и надписей с восстановлением фона, замену объектов с учётом стиля изображения, стилизацию портретов с сохранением черт лица, реставрацию и колоризацию старых фотографий. Отдельно упоминается интеграция с сервисом «Бессмертный полк онлайн» — Kandinsky помогает восстанавливать архивные снимки ветеранов. Среди профессиональных сценариев — генерация фасадов зданий и фотореалистичных интерьеров по чертежу помещения.

В сравнительных тестах, которые провела команда Сбера, Kandinsky 6.0 Image Pro показал результаты на уровне Flux 2 Max от Black Forest Labs и превзошёл GPT Image 1 от OpenAI. Методология — Side-by-Side оценка, где фиксируется доля побед каждой модели. Независимых бенчмарков на момент публикации не представлено.

Модель уже доступна на всех площадках GigaChat: в Telegram-боте, мессенджере Max, на сайте giga.chat и в Android-приложении. В ближайшее время разработчики обещают добавить редактирование по трём референсам одновременно и инструмент кисти для точного указания зоны редактирования — чтобы пользователь мог показать модели конкретную область для добавления или удаления объекта.