SD Studio: десктопный инструмент для локальной генерации изображений с LLM-ассистентом

Подготовлено редакцией Malakhov AI

Habr AI·2 мая·3 минРоссияКод

Российский разработчик выпустил open-source приложение SD Studio — десктопный клиент для Stable Diffusion, написанный на Go и Vue с помощью фреймворка Wails. Инструмент объединяет локальную генерацию изображений с LLM-ассистентом, который автоматически составляет промпты, и работает без облака на Windows, Linux и macOS.

Кратко

—SD Studio написан на Go + Vue, собран через Wails — исполняемый файл компактен и работает на всех трёх платформах.
—LLM-провайдеры поддерживают LM Studio, Ollama и llama.cpp; модели можно менять на лету через API.
—Система пресетов группирует модели, LoRA и параметры; пайплайны позволяют комбинировать несколько пресетов последовательно.
—Функция Multi-Scene решает проблему сложных сцен: персонажи генерируются отдельно, вырезаются через Rembg и вклеиваются на фон.
—Проект распространяется под лицензией AGPL v3, все данные остаются на машине пользователя.

Глоссарий · 7 терминов▾

Stable Diffusion: Семейство диффузионных нейросетевых моделей для генерации изображений по текстовому описанию, которые можно запускать локально на потребительских видеокартах.
LoRA: Low-Rank Adaptation — компактное дополнение к базовой модели, которое добавляет ей новые стили или объекты без полного переобучения.
Промпт: Текстовое описание, которое пользователь передаёт модели генерации изображений, чтобы задать желаемый результат.
Inpaint: Функция редактирования изображения, при которой модель перерисовывает только выделенную пользователем область, сохраняя остальное.
Wails: Фреймворк для создания десктопных приложений с Go-бэкендом и веб-интерфейсом, альтернатива Electron с меньшим размером бинарника.
Rembg: Библиотека для автоматического удаления фона с изображения, используется в SD Studio для вырезания персонажей при сборке мультисцен.
AGPL v3: Лицензия open-source, обязывающая публиковать исходный код любых модификаций, в том числе при использовании программы как сетевого сервиса.

Идея SD Studio выросла из сугубо практической задачи: разработчику и его жене понадобились иллюстрации для текстовой фэнтези-игры, рисовать никто не умел, а платные сервисы вроде Midjourney оказались дорогими для хобби-проекта. Выбор пал на Stable Diffusion с локальным запуском — но быстро выяснилось, что подбор промптов, моделей, LoRA-файлов и параметров сэмплирования занимает больше времени, чем сама генерация.

Stable Diffusion — это семейство диффузионных моделей для генерации изображений по текстовому описанию, которые можно запускать локально на потребительских видеокартах. В отличие от облачных сервисов, пользователь сам контролирует модели и данные. LoRA (Low-Rank Adaptation) — лёгкие дополнения к базовой модели, которые добавляют ей новые стили или объекты без полного переобучения.

Провайдер LLM	Особенности	Текущий статус у автора
LM Studio	Графический интерфейс, удобен для старта	Использовался на начальном этапе
Ollama	Работает как демон, меняет модели по API, удобный CLI	Используется сейчас
llama.cpp	Самый быстрый вариант	Не используется: не поддерживает смену модели через API

Первая версия решения была встроена в административную панель на Symfony: один провайдер общался с локальной LLM, которая по описанию из файлов с лором игры составляла промпт для Stable Diffusion, второй отправлял этот промпт в SD с заранее заданными настройками. Схема работала, но была жёстко привязана к конкретному контексту. Когда понадобилось сменить модель или задачу, автор решил не переписывать код в очередной раз, а вынести логику в универсальный инструмент.

LLM-провайдеры поддерживают LM Studio, Ollama и llama.cpp; модели можно менять на лету через API.

Так появилась SD Studio. Стек выбирался из практических соображений: семья работает на трёх разных ОС (Linux, Windows, macOS), а LLM и Stable Diffusion крутятся на игровом ПК с Windows. Go обеспечил бэкенд, Vue — интерфейс, а фреймворк Wails связал их в единый исполняемый файл. По словам автора, в отличие от Electron бинарник получился компактным и быстрым.

Центральный элемент архитектуры — система пресетов. Пресет объединяет выбор модели Stable Diffusion, набор LoRA-файлов, параметры генерации и базовый промпт, на основе которого LLM дорабатывает пользовательское описание под нужный стиль: аниме, реализм, кино и т.д. Если пользователь не знает, какой пресет выбрать, встроенная LLM анализирует все доступные и рекомендует подходящий. Пресеты можно объединять в пайплайны: первая модель генерирует изображение, вторая его дорабатывает. Это позволяет совмещать сильные стороны разных моделей — например, богатую фантазию Pony с качеством рендера моделей, обученных на реалистичных портретах.

Отдельного внимания заслуживает функция Multi-Scene. Stable Diffusion плохо справляется со сценами, где нужно разместить несколько независимых персонажей: модель пытается уместить всё описание в одном образе и получает гибриды. SD Studio решает это иначе: LLM разбирает текстовое описание сцены на фон и отдельных персонажей, каждый элемент генерируется независимо, затем библиотека Rembg вырезает персонажей с фона, вставляет их на общий фон, а финальный пресет обрабатывает всю сцену целиком, чтобы убрать видимые швы.

Для работы с LLM поддерживаются три локальных провайдера: LM Studio, Ollama и llama.cpp. Автор остановился на Ollama — он работает как системный демон и умеет переключать модели по API-запросу, что нужно для двух разных задач: генерации промптов и анализа изображений. llama.cpp быстрее, но не поддерживает смену модели через API.

Среди прочих возможностей — Batch-генерация (запуск сразу нескольких вариантов, пока пользователь занимается другими делами), инструмент Compare для визуального сравнения результатов разных пресетов и пайплайнов, встроенный File Browser и система сессий с историей шагов обработки, позволяющая откатиться к любому промежуточному результату. Проект опубликован под лицензией AGPL v3, облачных зависимостей нет.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

SD Studio: десктопный инструмент для локальной генерации изображений с LLM-ассистентом

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США