Kandinsky 6.0 Image Pro: новая модель Сбера для генерации и редактирования изображений

Подготовлено редакцией Malakhov AI

Habr AI·28 апр.·2 минРоссияКод

Сбер выпустил Kandinsky 6.0 Image Pro — единую модель генерации и редактирования изображений, которая, по внутренним тестам, работает на уровне Flux 2 Max и превосходит GPT Image 1.5. По сравнению с предыдущей версией модель ускорена более чем на 40%.

Кратко

—Kandinsky 6.0 Image Pro объединяет генерацию по тексту и редактирование изображений в одной модели.
—Переход к архитектуре MoE и оптимизация механизма внимания ускорили инференс более чем на 40%.
—Встроенный Image RAG позволяет обновлять знания модели без полного переобучения, подтягивая релевантные изображения из базы знаний.
—Модель поддерживает удаление объектов, замену, стилизацию, колоризацию старых фото и дизайн интерьеров.
—Kandinsky доступен в Telegram, мессенджере Max, на giga.chat и в Android-приложении GigaChat.

Глоссарий · 5 терминов▾

MoE (Mixture of Experts): Архитектура нейросети, при которой для каждого входного токена активируется только часть специализированных блоков («экспертов»), а не вся сеть целиком — это снижает вычислительные затраты.
Image RAG: Метод, при котором модель перед генерацией изображения ищет релевантные визуальные примеры во внешней базе и использует их как дополнительный контекст.
RAG (Retrieval-Augmented Generation): Подход к генерации, при котором модель дополняет свои ответы данными, извлечёнными из внешней базы знаний в момент запроса.
инференс: Процесс работы уже обученной нейросети — когда она принимает входные данные и выдаёт результат (в отличие от этапа обучения).
Side-by-Side сравнение: Метод оценки моделей, при котором оценщики видят результаты нескольких систем рядом и выбирают лучший — без знания, какая модель что сгенерировала.

Сбер представил Kandinsky 6.0 Image Pro — обновлённую модель, которая совмещает генерацию изображений по текстовому запросу и их редактирование. Предыдущая линейка Kandinsky 5, включавшая отдельные модели Text-to-Image и Image Editing Lite, была анонсирована на конференции AI Journey в конце 2024 года. Новая версия объединяет оба режима в единой архитектуре.

С технической точки зрения ключевое изменение — переход к архитектуре MoE (Mixture of Experts). В отличие от классических трансформеров, где каждый токен проходит через все параметры сети, MoE активирует только часть «экспертных» блоков для каждого запроса. Это снижает вычислительную нагрузку при сопоставимом или лучшем качестве. В сочетании с оптимизацией механизма внимания и параллелизацией инференса это дало прирост скорости более 40% относительно Kandinsky 5.

Модель	Позиция в сравнении
Kandinsky 6.0 Image Pro	На уровне Flux 2 Max
Flux 2 Max (Black Forest Labs)	На уровне Kandinsky 6.0 Image Pro
GPT Image 1 (OpenAI)	Уступает Kandinsky 6.0 Image Pro

Вторая значимая новинка — механизм Image RAG. RAG (Retrieval-Augmented Generation) — подход, при котором модель перед генерацией обращается к внешней базе знаний и добавляет найденные данные в контекст. В случае Kandinsky 6.0 это база изображений: при запросе пользователя система ищет релевантные визуальные референсы и передаёт их модели. Практический эффект — модель корректно воспроизводит объекты российской культуры (мезенская роспись, картуз, советская архитектура) без дополнительного обучения. Базу можно пополнять в любой момент, что принципиально отличает этот подход от традиционного дообучения, требующего значительных вычислительных ресурсов.

Переход к архитектуре MoE и оптимизация механизма внимания ускорили инференс более чем на 40%.

Side-By-Side сравнения Kandinsky 6.0 Image Pro с другими моделями. Первое число над каждым столбцом — доля побед Kandinsky. · Источник: Habr AI

Image RAG работает в обоих режимах — и при генерации с нуля, и при редактировании существующего изображения. Это позволяет, например, добавить на фото реального пользователя персонажа из кино, сохранив стилистику исходного снимка.

По части редактирования модель поддерживает широкий набор операций: удаление объектов и надписей с восстановлением фона, замену объектов с учётом стиля изображения, стилизацию портретов с сохранением черт лица, реставрацию и колоризацию старых фотографий. Отдельно упоминается интеграция с сервисом «Бессмертный полк онлайн» — Kandinsky помогает восстанавливать архивные снимки ветеранов. Среди профессиональных сценариев — генерация фасадов зданий и фотореалистичных интерьеров по чертежу помещения.

В сравнительных тестах, которые провела команда Сбера, Kandinsky 6.0 Image Pro показал результаты на уровне Flux 2 Max от Black Forest Labs и превзошёл GPT Image 1 от OpenAI. Методология — Side-by-Side оценка, где фиксируется доля побед каждой модели. Независимых бенчмарков на момент публикации не представлено.

Модель уже доступна на всех площадках GigaChat: в Telegram-боте, мессенджере Max, на сайте giga.chat и в Android-приложении. В ближайшее время разработчики обещают добавить редактирование по трём референсам одновременно и инструмент кисти для точного указания зоны редактирования — чтобы пользователь мог показать модели конкретную область для добавления или удаления объекта.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Kandinsky 6.0 Image Pro: новая модель Сбера для генерации и редактирования изображений

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США