Ещё два года назад попытка сгенерировать меню мексиканского ресторана с помощью DALL-E 3 заканчивалась блюдами вроде «churiros» и «burrto» — модель изобретала несуществующие слова, потому что буквы занимают слишком мало пикселей, чтобы диффузионная сеть научилась их воспроизводить точно. Images 2.0, запущенный OpenAI в этот вторник, выдаёт меню, которое можно отдать в типографию без правок.

Проблема с текстом в изображениях уходит корнями в архитектуру диффузионных моделей. Такие модели восстанавливают картинку из шума, обучаясь на статистике пикселей. Надписи — слишком маленькая доля изображения, чтобы модель уделяла им достаточно внимания при обучении. Исследователи давно экспериментировали с авторегрессионными подходами — теми же принципами, на которых работают языковые модели: вместо восстановления из шума такая архитектура предсказывает, каким должен быть следующий фрагмент изображения. OpenAI не раскрыла, какая именно архитектура лежит в основе Images 2.0, однако компания подтвердила, что модель обладает «мышлением» — способностью проверять собственные результаты, делать несколько вариантов из одного запроса и обращаться к поиску в интернете.

Практически это означает, что Images 2.0 умеет генерировать маркетинговые материалы сразу в нескольких форматах, строить многопанельные комиксы и корректно отображать нелатинские алфавиты — японский, корейский, хинди, бенгальский. Разрешение вывода — до 2K. Генерация сложных сцен занимает несколько минут, что медленнее текстового чата, но быстро по меркам профессиональных инструментов.

Модель поддерживает нелатинские алфавиты: японский, корейский, хинди, бенгальский.

OpenAI logo with spiraling pastel colors (Image Credits: Bryce Durbin / TechCrunch)
OpenAI logo with spiraling pastel colors (Image Credits: Bryce Durbin / TechCrunch) · Источник: TechCrunch AI

Доступ к модели открыт для всех пользователей ChatGPT и Codex; платные подписчики получают расширенные возможности вывода. Параллельно OpenAI выпустила API под названием gpt-image-2 — цена зависит от качества и разрешения запроса. Для разработчиков это открывает возможность встраивать генерацию изображений с читаемым текстом в собственные продукты.

Одно ограничение стоит учитывать: база знаний модели обрезана декабрём 2025 года. Запросы, связанные с событиями после этой даты, могут давать неточные или устаревшие результаты. На фоне конкурентов — Midjourney, Stable Diffusion, Adobe Firefly — OpenAI делает ставку не на художественный стиль, а на точность исполнения инструкций и техническую воспроизводимость деталей. Насколько это окажется востребованным в коммерческих сценариях, покажет практика.