Дообучение FLUX.2 [klein] за час: LoRA на одной видеокарте с нуля до Gradio-приложения

Подготовлено редакцией Malakhov AI

Habr AI·10 июн.·3 минРоссияКод

Модель FLUX.2 [klein] с 4 млрд параметров можно дообучить под конкретный визуальный стиль примерно за час на RTX 4090 — прогон LoRA укладывается в 24 ГБ VRAM и обходится в $0.50 при аренде GPU. Гайд охватывает весь цикл: сборку датасета, настройку тренера, обучение и упаковку результата в Gradio-приложение для Hugging Face Space.

Кратко

—FLUX.2 [klein] существует в вариантах 4B и 9B; для обучения LoRA нужен base-чекпоинт, а не distilled-версия.
—Датасет — 15–40 изображений в едином стиле; подписи описывают содержимое, но не называют стиль — он должен «вшиться» в триггерное слово.
—Тренер ostris/ИИ-toolkit запускается через веб-интерфейс без написания YAML; прогон 1800 шагов на RTX 4090 занимает менее часа.
—Оптимальный чекпоинт — не последний: визуальный пик для стилевых LoRA обычно приходится на 750–1500 шагов, loss при этом ещё продолжает снижаться.
—Модель распространяется под лицензией Apache 2.0, результаты обучения можно свободно использовать в коммерческих проектах.

Глоссарий · 7 терминов▾

LoRA (Low-Rank Adaptation): Метод дообучения нейросетей, при котором исходные веса модели не изменяются, а поверх них добавляется небольшой адаптер — это позволяет обучать модель под новую задачу с минимальными вычислительными затратами.
VRAM: Видеопамять — оперативная память, встроенная в видеокарту; именно её объём определяет, какие модели можно запускать и обучать локально.
Distilled-модель: Версия модели, сжатая так, чтобы давать результат за меньшее число шагов инференса; быстрее базовой, но менее подходит как цель для дообучения.
Триггерное слово: Уникальное слово или сочетание символов, которое в подписях датасета ассоциируется с нужным стилем — модель учится активировать этот стиль при появлении триггера в промпте.
Чекпоинт: Сохранённое состояние весов модели в определённый момент обучения; позволяет выбрать оптимальную точку, не дожидаясь финального шага.
Hugging Face Space: Бесплатный хостинг для демонстрационных ML-приложений на платформе Hugging Face; поддерживает Gradio- и Streamlit-интерфейсы с возможностью запуска на GPU.
safetensors: Формат хранения весов нейросетей, разработанный Hugging Face как более безопасная и быстрая альтернатива pickle-файлам.

Дообучение больших диффузионных моделей долго оставалось уделом тех, у кого есть доступ к серверным кластерам. FLUX.2 [klein] от Black Forest Labs меняет это соотношение: 4-миллиардная модель помещается в 24 ГБ видеопамяти, а полный прогон обучения LoRA на RTX 4090 занимает меньше часа и стоит около $0.50 при аренде GPU в облаке.

LoRA (Low-Rank Adaptation) — метод дообучения, при котором не меняются исходные веса модели, а поверх них добавляется небольшой адаптер. Это позволяет «научить» модель конкретному визуальному стилю, персонажу или типу редактирования, не переписывая 13 ГБ базовых весов. Результат сохраняется в файл.safetensors и подключается двумя строками кода поверх стандартного пайплайна diffusers.

Вариант запуска	Для кого подходит	Настройка
RunPod template	Большинство пользователей, ~$0.50 за запуск	One-click deploy, UI запускается автоматически
Local UI	Владельцы NVIDIA GPU на 24 ГБ+	git clone + npm run build_and_start, открыть localhost:8675

FLUX.2 [klein] выпускается в двух размерах — 4B и 9B — и в двух вариантах каждого: distilled (4 шага инференса) и base (50 шагов). Для обучения LoRA нужен именно base-чекпоинт: distilled-модели оптимизированы под быстрый инференс и не подходят как цель обучения. При этом готовый адаптер можно загружать поверх distilled-варианта — это даёт скорость на инференсе и, по результатам тестов авторов гайда, нередко лучшее качество.

Датасет — 15–40 изображений в едином стиле; подписи описывают содержимое, но не называют стиль — он должен «вшиться» в триггерное слово.

Сборка датасета — ключевой этап, где чаще всего допускают ошибки. Для стилевой LoRA достаточно 15–40 изображений в едином визуальном стиле. Каждому изображению нужна текстовая подпись в отдельном.txt-файле, и здесь есть принципиальное правило: подписи описывают содержимое кадра, но не называют стиль. Если написать «pixel art» или «8-bit» в подписях, модель научится реагировать на эти слова, а не вшивать стиль в веса. Стиль должен ассоциироваться с триггерным словом — намеренно нестандартным сочетанием символов вроде SPR1TE8 или RISO_PR1NT, которое гарантированно отсутствует в словаре базовой модели.

Исключение из правила — управляемые подстили. Если в датасете есть несколько визуальных вариантов, между которыми нужно переключаться на инференсе, их стоит явно назвать в подписях. Например, pixel-art LoRA от сообщества для klein-4B использует модификаторы «chibi», «16-bit pixel art», «32-bit pixel art» — именно эти слова потом работают как ручки управления в промпте.

Для запуска обучения авторы гайда рекомендуют тренер ostris/ИИ-toolkit с веб-интерфейсом — он не требует ручного редактирования YAML-конфигов. Альтернатива — запуск через CLI с конфиг-файлом, где для каждого нового прогона меняются три строки: имя папки с результатами, триггерное слово и путь к датасету. Тренер сохраняет чекпоинт каждые 250 шагов и генерирует превью-изображения рядом с каждым.

Одна из главных практических рекомендаций гайда — не ориентироваться на значение loss при выборе финального чекпоинта. Loss продолжает снижаться ещё долго после того, как модель начинает переобучаться, и изображения деградируют. Для большинства стилевых LoRA визуальный пик приходится на 750–1500 шагов из 1800. Правильный подход — открыть превью-изображения и выбрать тот.safetensors, который выглядит лучше всего, а не последний по счёту.

Гайд написан Build Small Hackathon, который проводят Gradio и Hugging Face при поддержке Black Forest Labs с 5 по 15 июня 2026 года. Ограничения хакатона — модель не более 32B параметров и оформление проекта как Gradio-приложения на Hugging Face Space. FLUX.2 [klein] с запасом укладывается в эти рамки. Финальный шаг гайда — упаковка обученной LoRA в Gradio-интерфейс, готовый к публикации как Space. Базовая модель распространяется под лицензией Apache 2.0, что позволяет свободно использовать результаты обучения в собственных проектах.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Дообучение FLUX.2 [klein] за час: LoRA на одной видеокарте с нуля до Gradio-приложения

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений