Новый генератор изображений от OpenAI появился 21 апреля 2026 года под названием gpt-image-2. В интерфейсе ChatGPT он работает как обновлённый инструмент генерации, доступный на всех тарифах включая бесплатный. В API модель называется gpt-image-2 и предоставляет расширенные параметры управления.

Главное техническое отличие от предыдущих решений — поддержка разрешений до 3840 пикселей по длинной стороне без программного увеличения. Среди поддерживаемых форматов: 1024×1024, 2048×2048, 3840×2160 и вертикальный 2160×3840. Через API можно запросить до 10 изображений за один вызов, что упрощает создание вариантов и сторибордов. Стоимость генерации одного изображения в качестве medium составляет около $0.05–0.06; токены изображений в API тарифицируются по $8.00 за миллион на входе и $30.00 на выходе.

ВозможностьЧто это дает на практике
1Гибкие размеры до 4K (макс. сторона 3840px)Популярные: 1024×1024, 2048×2048, 3840×2160, 2160×3840 - без апскейла
2Значительно улучшенный рендеринг текстаПостеры, меню, UI-мокапы, инфографика с читаемыми надписями
3Thinking Mode (reasoning + возможный веб-поиск)Модель может исследовать контекст, трансформировать входные данные, генерировать варианты и самопроверяться
4Несколько изображений за запрос (параметр n, до 10 в API)Варианты, сториборды, мультиформатные кампании
5Гибкие соотношения сторонБаннеры, сторис, постеры - без кропа
6Многоязычный текстКириллица, японский, корейский, хинди, арабский, китайский в одном изображении
7Мультиреференсный вводНесколько изображений как входные данные (точный лимит официально не указан)
8Структурированная генерацияДиаграммы, инфографика, комиксы, презентации

OpenAI сделала акцент на рендеринге текста внутри изображений — исторически слабом месте диффузионных генераторов. Модель заявлена как способная корректно отображать кириллицу, японское письмо, корейский, хинди, арабский и китайский в одном изображении. Это открывает практическое применение в создании постеров, UI-мокапов, инфографики и редакционных разворотов с читаемыми надписями.

Режим Images with Thinking позволяет модели использовать reasoning и веб-поиск перед генерацией — доступен на тарифах Plus, Pro и Business.

Сгенерировала в новом ChatGPT Images 2.0
Сгенерировала в новом ChatGPT Images 2.0 · Источник: Habr AI

Отдельного внимания заслуживает режим Images with Thinking. В нём модель получает дополнительное время на reasoning — может проанализировать задачу, обратиться к веб-поиску и сформировать план изображения до начала генерации. Режим доступен на тарифах Plus, Pro и Business; для Enterprise и Education анонсирован позднее. Обычная генерация без reasoning работает на всех тарифах.

В рейтинге Image Arena по состоянию на апрель 2026 года gpt-image-2 занял первое место с заметным отрывом — при том что в тестировании участвовала medium-версия модели, а не максимальная. Основные конкуренты в сравнении — генераторы на базе Gemini. Модели условно обозначенные в источнике как Nano Banana 2 и Nano Banana Pro работают быстрее: медианное время генерации через API составляет около 10 и 20 секунд соответственно против примерно 40 секунд у gpt-image-2. По стоимости тысячи изображений через API картина следующая: Nano Banana 2 — около $67, Nano Banana Pro — около $134, gpt-image-2 в режиме medium — $50–60. Более доступный вариант на базе Gemini 2.5 Flash обходится примерно в $39 за тысячу изображений.

Практические рекомендации по составлению запросов, которые приводит OpenAI, сводятся к структурированному описанию: сначала сцена и фон, затем субъект, ключевые детали и ограничения. Текст, который должен появиться на изображении, рекомендуется заключать в кавычки — модель воспринимает их буквально. Соотношение сторон лучше указывать в самом начале промпта. Использование общих эпитетов вроде masterpiece или insane detail не улучшает результат; конкретные технические описания освещения и материалов работают надёжнее.