ChatGPT Images 2.0: точный текст в графике и первые ошибки на реальных задачах

Подготовлено редакцией Malakhov AI

ZDNet AI·24 апр.·2 минИндустрия

ChatGPT Images 2.0, выпущенный OpenAI на этой неделе, впервые корректно воспроизводит длинные текстовые блоки внутри изображений — это принципиальное отличие от предыдущих версий. Но тесты на реальных редакционных материалах выявили фактические ошибки, которые требуют проверки человеком.

Кратко

—Images 2.0 доступен всем пользователям ChatGPT, но режим Thinking — только платным подпискам.
—Генератор корректно воспроизвёл логотип и фирменный стиль ZDNET при прямой загрузке изображения логотипа.
—При создании инфографики модель заменила один из пяти проверенных сервисов на конкурента, которого не было в источнике.
—ИИ самостоятельно добавил звёздные рейтинги, которых не было в исходной статье, и они противоречили тексту обзора.
—После повторного промпта с указанием ошибок модель исправила большинство неточностей в инфографике.

Глоссарий · 4 термина▾

режим Thinking: Режим работы ChatGPT, при котором модель перед ответом выполняет расширенную цепочку рассуждений — это улучшает качество сложных задач, но доступно только на платных тарифах.
галлюцинации: Ошибки языковой модели, при которых она генерирует правдоподобно выглядящие, но фактически неверные данные — имена, цифры, факты.
скетчноты: Формат визуальных заметок, сочетающий рукописный текст, схемы и иллюстрации для наглядного представления информации.
инфографика: Графическое представление данных или текста, объединяющее визуальные элементы и подписи для быстрого восприятия информации.

OpenAI выпустил Images 2.0 в конце апреля 2025 года, позиционируя обновление как переход от декоративной генерации к созданию полноценной деловой графики — инфографик, скетчнотов, брендированных материалов с читаемым текстом. Предыдущие версии генераторов, включая Midjourney и DALL-E 3, традиционно плохо справлялись с текстом внутри изображений: буквы искажались, слова перемешивались, надписи превращались в псевдографику. Images 2.0 решает эту проблему системно.

Журналист ZDNet Дэвид Гевирц протестировал модель на нескольких задачах с использованием аккаунта ChatGPT Plus с включённым режимом Thinking. Первый тест — воспроизведение фирменного стиля редакции. При загрузке логотипа ZDNET отдельным файлом модель корректно встроила его в инфографику, сохранила цветовую схему и точно воспроизвела весь текст, включая мелкие подписи под углом. Второй тест — скетчноты по тексту Билля о правах США в фирменном стиле. Здесь модель также справилась без ошибок в тексте, тогда как Google Gemini Nano в аналогичном задании несколько месяцев назад требовал многократных повторных запросов для корректного воспроизведения формулировок.

Однако третий тест обнажил системную проблему. Гевирц попросил преобразовать в инфографику собственный обзор конструкторов сайтов на базе ИИ. Модель создала визуально приемлемый материал, но допустила четыре ошибки. В заголовке инфографики появилась фраза «9 лучших конструкторов», хотя в оригинальной статье рассматривались только пять. Сервис 10Web был заменён на Durable — конкурента, которого в статье не упоминалось вовсе. Модель самостоятельно добавила звёздные рейтинги по категориям, которых в источнике не было, причём они расходились с оценками в тексте обзора. Наконец, в нижней части изображения появилась случайная декоративная линия без видимой причины.

Генератор корректно воспроизвёл логотип и фирменный стиль ZDNET при прямой загрузке изображения логотипа.

I tried ChatGPT Images 2.0: A fun, huge leap - and surprisingly useful for real work · Источник: ZDNet AI

Важен контекст: подобные ошибки — добавление несуществующих данных, замена одного объекта другим из той же категории — характерны для языковых моделей в целом. Это явление называют галлюцинациями: модель достраивает «правдоподобный» контент там, где у неё нет точных данных. В случае с текстовыми ответами такие ошибки давно известны, но в визуальном контенте они менее очевидны для читателя и потому потенциально опаснее. После повторного промпта с указанием конкретных ошибок модель исправила большинство из них — кроме звёздных рейтингов, которые Гевирц намеренно не стал корректировать во втором запросе.

Images 2.0 доступен пользователям всех тарифов ChatGPT, однако расширенные языковые возможности, включая режим Thinking, работают только на платных подписках. Следующий сравнительный тест Гевирц планирует провести между Images 2.0 и Google Gemini в задачах проектирования пользовательских интерфейсов. Пока же практический вывод из тестирования однозначен: модель способна существенно ускорить подготовку визуальных материалов, но финальная проверка фактов остаётся обязательной.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ