GPT Image 2: генератор изображений OpenAI с режимом рассуждений и поддержкой 4K

Подготовлено редакцией Malakhov AI

Habr AI·22 апр.·2 минРоссияКод

21 апреля 2026 года OpenAI запустила gpt-image-2 — новый генератор изображений, доступный в ChatGPT на всех тарифах и через API. Модель поддерживает разрешение до 3840 пикселей, многоязычный текст на изображениях и режим reasoning перед генерацией.

Кратко

—Максимальное разрешение — до 4K (3840px), без апскейла; поддерживаются произвольные соотношения сторон.
—Режим Images with Thinking позволяет модели использовать reasoning и веб-поиск перед генерацией — доступен на тарифах Plus, Pro и Business.
—API позволяет генерировать до 10 изображений за один запрос; одно изображение 1024×1024 обходится примерно в $0.05–0.06.
—В рейтинге Image Arena на апрель 2026 года модель заняла первое место с заметным отрывом — пока тестировалась medium-версия.
—Конкурирующие решения на базе Gemini быстрее (10–20 сек против ~40 сек) и дешевле, но уступают по экосистемной интеграции с OpenAI.

Глоссарий · 6 терминов▾

gpt-image-2: Название модели генерации изображений от OpenAI, доступной через API и интегрированной в ChatGPT как обновлённый генератор.
Images with Thinking: Режим генерации, в котором модель перед созданием изображения выполняет шаг reasoning — анализирует задачу, может обращаться к веб-поиску и планирует результат.
Reasoning: Процесс пошагового рассуждения языковой или мультимодальной модели перед выдачей ответа, позволяющий решать более сложные задачи.
UI-мокап: Визуальный макет интерфейса приложения или сайта, используемый для демонстрации дизайна без реальной функциональности.
Image Arena: Публичный рейтинг (arena.ai), где пользователи сравнивают изображения от разных генераторов вслепую, формируя рейтинг качества моделей.
API: Программный интерфейс, позволяющий разработчикам обращаться к возможностям модели из собственных приложений без использования готового интерфейса.

Новый генератор изображений от OpenAI появился 21 апреля 2026 года под названием gpt-image-2. В интерфейсе ChatGPT он работает как обновлённый инструмент генерации, доступный на всех тарифах включая бесплатный. В API модель называется gpt-image-2 и предоставляет расширенные параметры управления.

Главное техническое отличие от предыдущих решений — поддержка разрешений до 3840 пикселей по длинной стороне без программного увеличения. Среди поддерживаемых форматов: 1024×1024, 2048×2048, 3840×2160 и вертикальный 2160×3840. Через API можно запросить до 10 изображений за один вызов, что упрощает создание вариантов и сторибордов. Стоимость генерации одного изображения в качестве medium составляет около $0.05–0.06; токены изображений в API тарифицируются по $8.00 за миллион на входе и $30.00 на выходе.

№	Возможность	Что это дает на практике
1	Гибкие размеры до 4K (макс. сторона 3840px)	Популярные: 1024×1024, 2048×2048, 3840×2160, 2160×3840 - без апскейла
2	Значительно улучшенный рендеринг текста	Постеры, меню, UI-мокапы, инфографика с читаемыми надписями
3	Thinking Mode (reasoning + возможный веб-поиск)	Модель может исследовать контекст, трансформировать входные данные, генерировать варианты и самопроверяться
4	Несколько изображений за запрос (параметр n, до 10 в API)	Варианты, сториборды, мультиформатные кампании
5	Гибкие соотношения сторон	Баннеры, сторис, постеры - без кропа
6	Многоязычный текст	Кириллица, японский, корейский, хинди, арабский, китайский в одном изображении
7	Мультиреференсный ввод	Несколько изображений как входные данные (точный лимит официально не указан)
8	Структурированная генерация	Диаграммы, инфографика, комиксы, презентации

OpenAI сделала акцент на рендеринге текста внутри изображений — исторически слабом месте диффузионных генераторов. Модель заявлена как способная корректно отображать кириллицу, японское письмо, корейский, хинди, арабский и китайский в одном изображении. Это открывает практическое применение в создании постеров, UI-мокапов, инфографики и редакционных разворотов с читаемыми надписями.

Режим Images with Thinking позволяет модели использовать reasoning и веб-поиск перед генерацией — доступен на тарифах Plus, Pro и Business.

Сгенерировала в новом ChatGPT Images 2.0 · Источник: Habr AI

Отдельного внимания заслуживает режим Images with Thinking. В нём модель получает дополнительное время на reasoning — может проанализировать задачу, обратиться к веб-поиску и сформировать план изображения до начала генерации. Режим доступен на тарифах Plus, Pro и Business; для Enterprise и Education анонсирован позднее. Обычная генерация без reasoning работает на всех тарифах.

В рейтинге Image Arena по состоянию на апрель 2026 года gpt-image-2 занял первое место с заметным отрывом — при том что в тестировании участвовала medium-версия модели, а не максимальная. Основные конкуренты в сравнении — генераторы на базе Gemini. Модели условно обозначенные в источнике как Nano Banana 2 и Nano Banana Pro работают быстрее: медианное время генерации через API составляет около 10 и 20 секунд соответственно против примерно 40 секунд у gpt-image-2. По стоимости тысячи изображений через API картина следующая: Nano Banana 2 — около $67, Nano Banana Pro — около $134, gpt-image-2 в режиме medium — $50–60. Более доступный вариант на базе Gemini 2.5 Flash обходится примерно в $39 за тысячу изображений.

Практические рекомендации по составлению запросов, которые приводит OpenAI, сводятся к структурированному описанию: сначала сцена и фон, затем субъект, ключевые детали и ограничения. Текст, который должен появиться на изображении, рекомендуется заключать в кавычки — модель воспринимает их буквально. Соотношение сторон лучше указывать в самом начале промпта. Использование общих эпитетов вроде masterpiece или insane detail не улучшает результат; конкретные технические описания освещения и материалов работают надёжнее.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

GPT Image 2: генератор изображений OpenAI с режимом рассуждений и поддержкой 4K

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США