Генерация изображений в ChatGPT работает на той же логике, что и текстовые запросы: чем точнее сформулирован запрос, тем предсказуемее результат. OpenAI выпустила структурированное руководство, в котором описывает, как составлять промпты, итерировать результат и работать с загруженными изображениями.

Основа хорошего промпта — не длина, а конкретность. Достаточно 1–3 предложений, которые отвечают на несколько вопросов: что изображено, какое настроение или стиль нужен, что должно происходить в кадре и где. Если важны освещение, кадрирование или текстуры — их тоже стоит указать явно. Пример из руководства: «мягкий естественный свет из окна слева» даёт более стабильный результат, чем «красивое освещение». Расплывчатые эпитеты модель интерпретирует по-своему, конкретные параметры — нет.

При итерации изображения OpenAI рекомендует менять по одному элементу за раз, начиная с основной идеи и постепенно уточняя детали. Если нужно сохранить композицию, но изменить стиль — это формулируется прямо: «Оставь ту же композицию, но сделай стиль более современным». При редактировании загруженного изображения важно явно обозначить, что должно измениться, а что остаться нетронутым — иначе модель может «поплыть» в сторону от оригинала.

Academy > Projects > Cover Image
Academy > Projects > Cover Image · Источник: OpenAI News

Отдельный блок руководства посвящён работе с текстом внутри изображений — исторически слабое место большинства генеративных моделей. ChatGPT лучше справляется с задачей, если текст взят в кавычки или написан заглавными буквами, а для нестандартных слов и брендов рекомендуется диктовать написание побуквенно. Для плотных макетов — инфографики, постеров, диаграмм — стоит явно указывать «чёткий рендеринг текста» и при необходимости дорабатывать результат в дизайн-инструментах.

Контекст появления таких рекомендаций понятен: генерация изображений в ChatGPT основана на модели DALL-E, которую OpenAI интегрировала в чат-интерфейс. В отличие от Midjourney или Stable Diffusion, где пользователь работает с отдельным инструментом и специфическим синтаксисом промптов, ChatGPT позволяет вести диалог на естественном языке и уточнять результат в той же переписке. Это снижает порог входа, но одновременно создаёт иллюзию, что любой запрос сработает без подготовки.

По вопросам использования результатов OpenAI занимает прагматичную позицию: атрибуция сгенерированных изображений не обязательна, но допустима. При работе с образами реальных людей нужно иметь разрешение на использование их внешности. Для брендовых задач компания советует запрашивать «обобщённые» или «собственные» версии дизайна вместо прямого копирования существующих продуктов или стилей — это снижает юридические риски и делает результат более применимым.