ChatGPT Images 2.0: инфографика по запросу, но логотипы модель пока не осилила

Подготовлено редакцией Malakhov AI

ZDNet AI·21 апр.·2 минИндустрия

OpenAI выпустила ChatGPT Images 2.0 — модель, которая умеет строить многостраничные инфографики по размытому текстовому запросу, самостоятельно подтягивая внешние данные. Доступ открыт для всех пользователей ChatGPT и Codex, расширенные функции с режимом мышления — только для подписчиков Plus, Pro, Business и Enterprise.

Кратко

—Images 2.0 поддерживает соотношения сторон от 3:1 до 1:3 и разрешение до 2K — раньше модель игнорировала такие параметры.
—Режим Thinking позволяет модели собирать внешние данные и строить связные серии изображений по одному запросу.
—В тесте ZDNet модель трижды не смогла корректно воспроизвести логотип ZDNET — каждый раз добавляла артефакты.
—API-доступ открыт через модель gpt-image-2, цена зависит от качества, режима мышления и разрешения.
—Мобильная версия и управление пальцем на сенсорном экране обещаны позже — пока только десктоп.

Глоссарий · 5 терминов▾

Thinking / режим мышления: Режим работы языковой модели, при котором перед выдачей ответа она выполняет внутренние шаги рассуждения — собирает данные, строит план и проверяет промежуточные результаты.
API: Программный интерфейс, позволяющий разработчикам обращаться к возможностям модели из собственных приложений без использования веб-интерфейса ChatGPT.
Aspect ratio (соотношение сторон): Соотношение ширины и высоты изображения, например 16:9 для широкоформатного или 1:3 для вертикального формата.
Fine-tuning: Дообучение уже готовой модели на узком наборе данных — например, на изображениях конкретного бренда — для повышения точности в специализированных задачах.
Reasoning: Способность модели выстраивать цепочку логических шагов при решении задачи, а не давать ответ напрямую по входному запросу.

ChatGPT Images 2.0 позиционируется OpenAI не как улучшенный генератор картинок, а как инструмент визуального мышления. Компания формулирует это так: «Хорошее изображение делает то же, что хорошее предложение — отбирает, упорядочивает и раскрывает». Модель доступна с сегодняшнего дня всем пользователям ChatGPT и Codex, расширенные возможности — подписчикам платных тарифов.

Главное отличие от предыдущих версий — интеграция reasoning-процесса непосредственно в генерацию изображений. Это означает, что модель не просто рисует по описанию, а может получить размытый запрос вроде «сделай инфографику об активностях с учётом завтрашней погоды в Сан-Франциско» и самостоятельно запросить данные о погоде, подобрать подходящие занятия и собрать из этого визуальный материал. Раньше подобный сценарий требовал нескольких отдельных инструментов и ручной сборки результата.

Технически модель получила поддержку соотношений сторон от 3:1 до 1:3 — это решает давнюю проблему, когда ChatGPT упорно выдавал изображения в собственном формате вне зависимости от инструкций пользователя. Разрешение выросло до 2K, добавилась поддержка мелкого текста и UI-элементов внутри изображений. API-доступ открыт через модель gpt-image-2, стоимость зависит от выбранного качества и режима мышления.

Режим Thinking позволяет модели собирать внешние данные и строить связные серии изображений по одному запросу.

I got an early look at ChatGPT Images 2.0, and it's impressive - with one exception · Источник: ZDNet AI

Журналист ZDNet Дэвид Гевирц получил доступ к предрелизной версии и провёл практический тест: передал модели скриншот главной страницы ZDNET и черновик пресс-релиза, попросив сгенерировать инфографику в фирменном стиле издания с соотношением сторон 16:9. Инфографика получилась качественной — модель корректно структурировала содержание и выдержала общую стилистику. Однако логотип ZDNET модель не смогла воспроизвести ни в одной из трёх попыток: в первый раз буква Z вышла с провисанием, во второй модель откуда-то извлекла версию логотипа до редизайна 2022 года и наложила на него актуальную цветовую схему, в третий — добавила к букве D несуществующий элемент в виде руля. Прямые инструкции «не искать альтернативные логотипы» проблему не устранили.

Подобная нестабильность при работе с фирменной графикой — известная слабость генеративных моделей. Они обучены на огромных массивах изображений и не хранят логотипы как фиксированные объекты: каждый раз модель «вспоминает» визуальный образ заново, что неизбежно вносит искажения. Конкуренты — Midjourney, Adobe Firefly, Stable Diffusion — решают эту задачу по-разному: через fine-tuning на конкретном бренде или через жёсткое встраивание референсного изображения. OpenAI пока не раскрывала, предусмотрен ли в Images 2.0 механизм фиксации брендовых элементов.

Мобильная версия с поддержкой выделения объектов пальцем на сенсорном экране анонсирована, но сроки не названы. Пока модель работает только в десктопном интерфейсе ChatGPT.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ