ChatGPT Images 2.0 позиционируется OpenAI не как улучшенный генератор картинок, а как инструмент визуального мышления. Компания формулирует это так: «Хорошее изображение делает то же, что хорошее предложение — отбирает, упорядочивает и раскрывает». Модель доступна с сегодняшнего дня всем пользователям ChatGPT и Codex, расширенные возможности — подписчикам платных тарифов.

Главное отличие от предыдущих версий — интеграция reasoning-процесса непосредственно в генерацию изображений. Это означает, что модель не просто рисует по описанию, а может получить размытый запрос вроде «сделай инфографику об активностях с учётом завтрашней погоды в Сан-Франциско» и самостоятельно запросить данные о погоде, подобрать подходящие занятия и собрать из этого визуальный материал. Раньше подобный сценарий требовал нескольких отдельных инструментов и ручной сборки результата.

Технически модель получила поддержку соотношений сторон от 3:1 до 1:3 — это решает давнюю проблему, когда ChatGPT упорно выдавал изображения в собственном формате вне зависимости от инструкций пользователя. Разрешение выросло до 2K, добавилась поддержка мелкого текста и UI-элементов внутри изображений. API-доступ открыт через модель gpt-image-2, стоимость зависит от выбранного качества и режима мышления.

Режим Thinking позволяет модели собирать внешние данные и строить связные серии изображений по одному запросу.

I got an early look at ChatGPT Images 2.0, and it's impressive - with one exception
I got an early look at ChatGPT Images 2.0, and it's impressive - with one exception · Источник: ZDNet AI

Журналист ZDNet Дэвид Гевирц получил доступ к предрелизной версии и провёл практический тест: передал модели скриншот главной страницы ZDNET и черновик пресс-релиза, попросив сгенерировать инфографику в фирменном стиле издания с соотношением сторон 16:9. Инфографика получилась качественной — модель корректно структурировала содержание и выдержала общую стилистику. Однако логотип ZDNET модель не смогла воспроизвести ни в одной из трёх попыток: в первый раз буква Z вышла с провисанием, во второй модель откуда-то извлекла версию логотипа до редизайна 2022 года и наложила на него актуальную цветовую схему, в третий — добавила к букве D несуществующий элемент в виде руля. Прямые инструкции «не искать альтернативные логотипы» проблему не устранили.

Подобная нестабильность при работе с фирменной графикой — известная слабость генеративных моделей. Они обучены на огромных массивах изображений и не хранят логотипы как фиксированные объекты: каждый раз модель «вспоминает» визуальный образ заново, что неизбежно вносит искажения. Конкуренты — Midjourney, Adobe Firefly, Stable Diffusion — решают эту задачу по-разному: через fine-tuning на конкретном бренде или через жёсткое встраивание референсного изображения. OpenAI пока не раскрывала, предусмотрен ли в Images 2.0 механизм фиксации брендовых элементов.

Мобильная версия с поддержкой выделения объектов пальцем на сенсорном экране анонсирована, но сроки не названы. Пока модель работает только в десктопном интерфейсе ChatGPT.