Дообучение больших диффузионных моделей долго оставалось уделом тех, у кого есть доступ к серверным кластерам. FLUX.2 [klein] от Black Forest Labs меняет это соотношение: 4-миллиардная модель помещается в 24 ГБ видеопамяти, а полный прогон обучения LoRA на RTX 4090 занимает меньше часа и стоит около $0.50 при аренде GPU в облаке.

LoRA (Low-Rank Adaptation) — метод дообучения, при котором не меняются исходные веса модели, а поверх них добавляется небольшой адаптер. Это позволяет «научить» модель конкретному визуальному стилю, персонажу или типу редактирования, не переписывая 13 ГБ базовых весов. Результат сохраняется в файл.safetensors и подключается двумя строками кода поверх стандартного пайплайна diffusers.

Вариант запускаДля кого подходитНастройка
RunPod templateБольшинство пользователей, ~$0.50 за запускOne-click deploy, UI запускается автоматически
Local UIВладельцы NVIDIA GPU на 24 ГБ+git clone + npm run build_and_start, открыть localhost:8675

FLUX.2 [klein] выпускается в двух размерах — 4B и 9B — и в двух вариантах каждого: distilled (4 шага инференса) и base (50 шагов). Для обучения LoRA нужен именно base-чекпоинт: distilled-модели оптимизированы под быстрый инференс и не подходят как цель обучения. При этом готовый адаптер можно загружать поверх distilled-варианта — это даёт скорость на инференсе и, по результатам тестов авторов гайда, нередко лучшее качество.

Датасет — 15–40 изображений в едином стиле; подписи описывают содержимое, но не называют стиль — он должен «вшиться» в триггерное слово.

Сборка датасета — ключевой этап, где чаще всего допускают ошибки. Для стилевой LoRA достаточно 15–40 изображений в едином визуальном стиле. Каждому изображению нужна текстовая подпись в отдельном.txt-файле, и здесь есть принципиальное правило: подписи описывают содержимое кадра, но не называют стиль. Если написать «pixel art» или «8-bit» в подписях, модель научится реагировать на эти слова, а не вшивать стиль в веса. Стиль должен ассоциироваться с триггерным словом — намеренно нестандартным сочетанием символов вроде SPR1TE8 или RISO_PR1NT, которое гарантированно отсутствует в словаре базовой модели.

Исключение из правила — управляемые подстили. Если в датасете есть несколько визуальных вариантов, между которыми нужно переключаться на инференсе, их стоит явно назвать в подписях. Например, pixel-art LoRA от сообщества для klein-4B использует модификаторы «chibi», «16-bit pixel art», «32-bit pixel art» — именно эти слова потом работают как ручки управления в промпте.

Для запуска обучения авторы гайда рекомендуют тренер ostris/ИИ-toolkit с веб-интерфейсом — он не требует ручного редактирования YAML-конфигов. Альтернатива — запуск через CLI с конфиг-файлом, где для каждого нового прогона меняются три строки: имя папки с результатами, триггерное слово и путь к датасету. Тренер сохраняет чекпоинт каждые 250 шагов и генерирует превью-изображения рядом с каждым.

Одна из главных практических рекомендаций гайда — не ориентироваться на значение loss при выборе финального чекпоинта. Loss продолжает снижаться ещё долго после того, как модель начинает переобучаться, и изображения деградируют. Для большинства стилевых LoRA визуальный пик приходится на 750–1500 шагов из 1800. Правильный подход — открыть превью-изображения и выбрать тот.safetensors, который выглядит лучше всего, а не последний по счёту.

Гайд написан Build Small Hackathon, который проводят Gradio и Hugging Face при поддержке Black Forest Labs с 5 по 15 июня 2026 года. Ограничения хакатона — модель не более 32B параметров и оформление проекта как Gradio-приложения на Hugging Face Space. FLUX.2 [klein] с запасом укладывается в эти рамки. Финальный шаг гайда — упаковка обученной LoRA в Gradio-интерфейс, готовый к публикации как Space. Базовая модель распространяется под лицензией Apache 2.0, что позволяет свободно использовать результаты обучения в собственных проектах.