Сбер представил Kandinsky 6.0 Image Pro — обновлённую модель, которая совмещает генерацию изображений по текстовому запросу и их редактирование. Предыдущая линейка Kandinsky 5, включавшая отдельные модели Text-to-Image и Image Editing Lite, была анонсирована на конференции AI Journey в конце 2024 года. Новая версия объединяет оба режима в единой архитектуре.
С технической точки зрения ключевое изменение — переход к архитектуре MoE (Mixture of Experts). В отличие от классических трансформеров, где каждый токен проходит через все параметры сети, MoE активирует только часть «экспертных» блоков для каждого запроса. Это снижает вычислительную нагрузку при сопоставимом или лучшем качестве. В сочетании с оптимизацией механизма внимания и параллелизацией инференса это дало прирост скорости более 40% относительно Kandinsky 5.
| Модель | Позиция в сравнении |
|---|---|
| Kandinsky 6.0 Image Pro | На уровне Flux 2 Max |
| Flux 2 Max (Black Forest Labs) | На уровне Kandinsky 6.0 Image Pro |
| GPT Image 1 (OpenAI) | Уступает Kandinsky 6.0 Image Pro |
Вторая значимая новинка — механизм Image RAG. RAG (Retrieval-Augmented Generation) — подход, при котором модель перед генерацией обращается к внешней базе знаний и добавляет найденные данные в контекст. В случае Kandinsky 6.0 это база изображений: при запросе пользователя система ищет релевантные визуальные референсы и передаёт их модели. Практический эффект — модель корректно воспроизводит объекты российской культуры (мезенская роспись, картуз, советская архитектура) без дополнительного обучения. Базу можно пополнять в любой момент, что принципиально отличает этот подход от традиционного дообучения, требующего значительных вычислительных ресурсов.
Переход к архитектуре MoE и оптимизация механизма внимания ускорили инференс более чем на 40%.

Image RAG работает в обоих режимах — и при генерации с нуля, и при редактировании существующего изображения. Это позволяет, например, добавить на фото реального пользователя персонажа из кино, сохранив стилистику исходного снимка.
По части редактирования модель поддерживает широкий набор операций: удаление объектов и надписей с восстановлением фона, замену объектов с учётом стиля изображения, стилизацию портретов с сохранением черт лица, реставрацию и колоризацию старых фотографий. Отдельно упоминается интеграция с сервисом «Бессмертный полк онлайн» — Kandinsky помогает восстанавливать архивные снимки ветеранов. Среди профессиональных сценариев — генерация фасадов зданий и фотореалистичных интерьеров по чертежу помещения.
В сравнительных тестах, которые провела команда Сбера, Kandinsky 6.0 Image Pro показал результаты на уровне Flux 2 Max от Black Forest Labs и превзошёл GPT Image 1 от OpenAI. Методология — Side-by-Side оценка, где фиксируется доля побед каждой модели. Независимых бенчмарков на момент публикации не представлено.
Модель уже доступна на всех площадках GigaChat: в Telegram-боте, мессенджере Max, на сайте giga.chat и в Android-приложении. В ближайшее время разработчики обещают добавить редактирование по трём референсам одновременно и инструмент кисти для точного указания зоны редактирования — чтобы пользователь мог показать модели конкретную область для добавления или удаления объекта.



