Редизайн чужого изображения под корпоративный стиль — задача, которую дизайнеры раньше решали в Photoshop за несколько часов. Автор материала на Habr прошла тот же путь через Gemini и Kling, зафиксировав не только удачные шаги, но и тупики.
Отправной точкой стал референс с Pinterest — предположительно тоже сгенерированный — с автоматом-краном в стиле KFC. Первый шаг оказался простым: Gemini без проблем перекрасил изображение в фирменный розовый #FF5894 по одному короткому запросу. Сложности начались на втором шаге, когда потребовалось заменить вёдра KFC на корпоративных персонажей-маскотов. Промпт «замени вёдра на иконки и сделай их объёмными» вернул плоский, нереалистичный результат. Нейросеть не понимала, как именно должен выглядеть объём в конкретном контексте сцены.
Здесь автор сформулировала ключевой принцип работы с генеративными моделями: нельзя просить выполнить сложное составное действие в одном промпте. Задачу нужно разбивать на атомарные операции. Вместо того чтобы просить сразу «замени объект и сделай его объёмным», она сначала сгенерировала каждую 3D-игрушку отдельно — с подробным английским промптом, описывающим материал («inflatable cushion», «matte texture»), угол подачи (45 градусов) и стиль (plush toy на белом фоне). Только получив три готовых объекта, она вернулась к основной сцене и попросила Gemini вставить их, сохранив объём и разные направления взгляда.
Попытка заменить объекты одним промптом дала плоский, нереалистичный результат.

Отдельного внимания заслуживает этап замены логотипа. Первые попытки давали артефакты — нейросеть начинала «фантазировать» и изменяла фон автомата. Решением стало добавление уточнения «without altering the background of the machine itself». Одна фраза убрала нежелательное поведение модели и зафиксировала результат.
После сборки финального изображения автор перешла в Kling — сервис для генерации видео по картинке. Первый промпт описывал базовую механику: коготь опускается, захватывает игрушку, поднимает её. Второй, расширенный вариант добавил физику падения, замедленную съёмку и реакцию кучи игрушек на упавший объект. Детализация промпта напрямую повлияла на качество анимации — чем точнее описаны текстуры, освещение и движение, тем меньше модель додумывает самостоятельно.
Подход, описанный в материале, применим не только к брендинговым задачам. Декомпозиция промптов — стандартная практика при работе с любыми мультишаговыми задачами в генеративных моделях. Попытка уместить несколько трансформаций в один запрос почти всегда снижает качество: модель теряет приоритеты и усредняет результат. Последовательная цепочка коротких точных запросов даёт предсказуемый контроль над каждым элементом сцены.


