ChatGPT Images 2.0 построен на новой модели GPT Image 2 и вышел сегодня для всех пользователей ChatGPT и Codex. Ключевое отличие от предыдущей версии — режим thinking, который до этого применялся только в текстовых моделях OpenAI. Когда он активирован, генератор не просто интерпретирует текстовый запрос, а сначала обращается к веб-поиску, изучает загруженные пользователем файлы и выстраивает логику будущего изображения — и лишь затем приступает к рендерингу.

Режим thinking пока доступен только платным подписчикам — тарифам Plus, Pro, Business и Enterprise. Именно они получают доступ к наиболее заметной новой функции: генерации до восьми изображений за один запрос с сохранением единого стиля, персонажей и объектов во всех кадрах. OpenAI позиционирует это как инструмент для создания страниц манги, серий социальных графиков или визуализации дизайна каждой комнаты в доме — то есть задач, где важна нарративная или визуальная последовательность.

Для всех пользователей без исключения доступны обновления, которые улучшают точность следования инструкциям, сохранение деталей и генерацию текста внутри изображений. Максимальное разрешение выросло до 2K, а поддерживаемые форматы теперь охватывают диапазон от широкоэкранного 3:1 до вертикального 1:3. Отдельно OpenAI выделяет «значительные улучшения» в работе с нелатинскими системами письма: японским, корейским, китайским, хинди и бенгальским — традиционно проблемной областью для генеративных моделей изображений.

За один запрос с включённым thinking можно получить до восьми изображений с единым стилем, персонажами и объектами.

ChatGPT Images 2.0 научился искать информацию в сети перед генерацией картинок
· Источник: The Verge AI

История ChatGPT Images началась в 2024 году; последнее крупное обновление вышло в декабре — тогда акцент делался на скорости генерации и инструментах редактирования фотографий. С тех пор конкурентная среда заметно уплотнилась: Google выпустила Nano Banana Pro, Microsoft — MAI-Image-2. Появление thinking-режима в генераторе изображений логично вписывается в общую стратегию OpenAI: компания последовательно переносит подходы рассуждающих моделей — таких как o3 и o4-mini — на смежные модальности, выходя за пределы текста.

Практический смысл веб-поиска перед генерацией становится очевиден на конкретных примерах: модель может уточнить актуальный внешний вид логотипа бренда, найти референс архитектурного стиля или проверить, как выглядит реальный объект, прежде чем его нарисовать. Это сближает генератор изображений с инструментом для работы с актуальной информацией, а не только с творческим ассистентом, опирающимся на обучающие данные.