ChatGPT Images 2.0 научился корректно рендерить текст на изображениях

Подготовлено редакцией Malakhov AI

TechCrunch AI·21 апр.·2 минИндустрия

OpenAI открыла доступ к Images 2.0 для всех пользователей ChatGPT и Codex с вторника: модель генерирует читаемые надписи, UI-элементы и многопанельные комиксы с разрешением до 2K — то, с чем предыдущие диффузионные модели справлялись из рук вон плохо.

Кратко

—Images 2.0 корректно рендерит мелкий текст, иконки и UI-элементы — исторически слабое место генераторов изображений.
—Модель поддерживает нелатинские алфавиты: японский, корейский, хинди, бенгальский.
—«Мышление» позволяет модели проверять собственные результаты, делать несколько вариантов из одного промпта и искать в интернете.
—API gpt-image-2 доступен разработчикам; цена зависит от качества и разрешения вывода.
—База знаний модели обрезана декабрём 2025 года, что может влиять на точность при работе с актуальными темами.

Глоссарий · 5 терминов▾

Диффузионная модель: Тип нейросети для генерации изображений: обучается постепенно убирать шум из случайной картинки, пока не получится осмысленное изображение.
Авторегрессионная модель: Архитектура, при которой модель предсказывает каждый следующий элемент последовательности на основе предыдущих — тот же принцип, что у языковых моделей вроде GPT.
API: Программный интерфейс, позволяющий разработчикам подключать возможности сервиса к собственным приложениям.
LLM: Large Language Model — большая языковая модель, обученная на текстах и способная генерировать, переводить и анализировать текст.
Рендеринг текста: Процесс отображения букв и символов на изображении с сохранением читаемости и правильного написания.

Ещё два года назад попытка сгенерировать меню мексиканского ресторана с помощью DALL-E 3 заканчивалась блюдами вроде «churiros» и «burrto» — модель изобретала несуществующие слова, потому что буквы занимают слишком мало пикселей, чтобы диффузионная сеть научилась их воспроизводить точно. Images 2.0, запущенный OpenAI в этот вторник, выдаёт меню, которое можно отдать в типографию без правок.

Проблема с текстом в изображениях уходит корнями в архитектуру диффузионных моделей. Такие модели восстанавливают картинку из шума, обучаясь на статистике пикселей. Надписи — слишком маленькая доля изображения, чтобы модель уделяла им достаточно внимания при обучении. Исследователи давно экспериментировали с авторегрессионными подходами — теми же принципами, на которых работают языковые модели: вместо восстановления из шума такая архитектура предсказывает, каким должен быть следующий фрагмент изображения. OpenAI не раскрыла, какая именно архитектура лежит в основе Images 2.0, однако компания подтвердила, что модель обладает «мышлением» — способностью проверять собственные результаты, делать несколько вариантов из одного запроса и обращаться к поиску в интернете.

Практически это означает, что Images 2.0 умеет генерировать маркетинговые материалы сразу в нескольких форматах, строить многопанельные комиксы и корректно отображать нелатинские алфавиты — японский, корейский, хинди, бенгальский. Разрешение вывода — до 2K. Генерация сложных сцен занимает несколько минут, что медленнее текстового чата, но быстро по меркам профессиональных инструментов.

Модель поддерживает нелатинские алфавиты: японский, корейский, хинди, бенгальский.

OpenAI logo with spiraling pastel colors (Image Credits: Bryce Durbin / TechCrunch) · Источник: TechCrunch AI

Доступ к модели открыт для всех пользователей ChatGPT и Codex; платные подписчики получают расширенные возможности вывода. Параллельно OpenAI выпустила API под названием gpt-image-2 — цена зависит от качества и разрешения запроса. Для разработчиков это открывает возможность встраивать генерацию изображений с читаемым текстом в собственные продукты.

Одно ограничение стоит учитывать: база знаний модели обрезана декабрём 2025 года. Запросы, связанные с событиями после этой даты, могут давать неточные или устаревшие результаты. На фоне конкурентов — Midjourney, Stable Diffusion, Adobe Firefly — OpenAI делает ставку не на художественный стиль, а на точность исполнения инструкций и техническую воспроизводимость деталей. Насколько это окажется востребованным в коммерческих сценариях, покажет практика.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ