OpenAI выпустил Images 2.0 в конце апреля 2025 года, позиционируя обновление как переход от декоративной генерации к созданию полноценной деловой графики — инфографик, скетчнотов, брендированных материалов с читаемым текстом. Предыдущие версии генераторов, включая Midjourney и DALL-E 3, традиционно плохо справлялись с текстом внутри изображений: буквы искажались, слова перемешивались, надписи превращались в псевдографику. Images 2.0 решает эту проблему системно.

Журналист ZDNet Дэвид Гевирц протестировал модель на нескольких задачах с использованием аккаунта ChatGPT Plus с включённым режимом Thinking. Первый тест — воспроизведение фирменного стиля редакции. При загрузке логотипа ZDNET отдельным файлом модель корректно встроила его в инфографику, сохранила цветовую схему и точно воспроизвела весь текст, включая мелкие подписи под углом. Второй тест — скетчноты по тексту Билля о правах США в фирменном стиле. Здесь модель также справилась без ошибок в тексте, тогда как Google Gemini Nano в аналогичном задании несколько месяцев назад требовал многократных повторных запросов для корректного воспроизведения формулировок.

Однако третий тест обнажил системную проблему. Гевирц попросил преобразовать в инфографику собственный обзор конструкторов сайтов на базе ИИ. Модель создала визуально приемлемый материал, но допустила четыре ошибки. В заголовке инфографики появилась фраза «9 лучших конструкторов», хотя в оригинальной статье рассматривались только пять. Сервис 10Web был заменён на Durable — конкурента, которого в статье не упоминалось вовсе. Модель самостоятельно добавила звёздные рейтинги по категориям, которых в источнике не было, причём они расходились с оценками в тексте обзора. Наконец, в нижней части изображения появилась случайная декоративная линия без видимой причины.

Генератор корректно воспроизвёл логотип и фирменный стиль ZDNET при прямой загрузке изображения логотипа.

I tried ChatGPT Images 2.0: A fun, huge leap - and surprisingly useful for real work
I tried ChatGPT Images 2.0: A fun, huge leap - and surprisingly useful for real work · Источник: ZDNet AI

Важен контекст: подобные ошибки — добавление несуществующих данных, замена одного объекта другим из той же категории — характерны для языковых моделей в целом. Это явление называют галлюцинациями: модель достраивает «правдоподобный» контент там, где у неё нет точных данных. В случае с текстовыми ответами такие ошибки давно известны, но в визуальном контенте они менее очевидны для читателя и потому потенциально опаснее. После повторного промпта с указанием конкретных ошибок модель исправила большинство из них — кроме звёздных рейтингов, которые Гевирц намеренно не стал корректировать во втором запросе.

Images 2.0 доступен пользователям всех тарифов ChatGPT, однако расширенные языковые возможности, включая режим Thinking, работают только на платных подписках. Следующий сравнительный тест Гевирц планирует провести между Images 2.0 и Google Gemini в задачах проектирования пользовательских интерфейсов. Пока же практический вывод из тестирования однозначен: модель способна существенно ускорить подготовку визуальных материалов, но финальная проверка фактов остаётся обязательной.