Почему диффузионные модели рисуют швы на 40-мегапиксельных фото и как это исправить

Автор Habr разобрал технический механизм появления видимых стыков при тайловой генерации высокоразрешающих изображений диффузионными моделями и описал практические методы их устранения без потери качества.

Диффузионные генеративные модели обучаются на изображениях относительно небольшого разрешения — обычно 512×512 или 1024×1024 пикселей. Когда их просят сгенерировать или обработать изображение размером 40 Мп и более, модели используют тайловое (плиточное) разбиение: изображение делится на фрагменты, каждый обрабатывается независимо, затем собирается обратно.

Проблема возникает на стыках тайлов: поскольку модель не видит соседние фрагменты при обработке текущего, она не может обеспечить непрерывность текстур, освещения и деталей через границы. На стыках появляются видимые артефакты — линии, разрывы в текстурах или цветовые скачки.

Автор описывает основной метод решения — overlapping tiles с градиентным смешением: тайлы берутся с перекрытием (обычно 50–100 пикселей), а в зоне перекрытия два результата смешиваются через маску с плавным переходом (Gaussian blending). Это устраняет жёсткие границы, но создаёт зону неопределённости, где оба тайла «спорят» о содержимом.

При тайловой генерации границы тайлов видны из-за независимой обработки перекрывающихся областей

Для более качественного результата предлагается multi-pass refinement: после первоначальной тайловой сборки изображение проходит второй проход генерации со смещённой сеткой тайлов, что позволяет дополнительно сгладить оставшиеся артефакты. Ещё одна техника — consistent latent seeding: использование детерминированного шума с привязкой к координатам пикселей, что обеспечивает согласованность случайных компонент в перекрывающихся областях.

Публикация содержит реализацию на Python с использованием diffusers-библиотеки и примеры сравнения до/после для нескольких типов изображений. Методы применимы к Stable Diffusion XL, FLUX и другим популярным диффузионным архитектурам.

Почему диффузионные модели рисуют швы на 40-мегапиксельных фото и как это исправить

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска