GPT-5.5 появилась в ChatGPT и Codex для подписчиков Plus, Pro, Business и Enterprise — доступ через API обещан позже. OpenAI называет её первой полностью переобученной базовой моделью со времён GPT-4.5: предыдущие релизы серии GPT-5.x были преимущественно доработками поверх существующей архитектуры.

Модель проектировалась под агентные сценарии: длинные инженерные задачи, автономная работа с компьютером, ранние этапы научных исследований. Ключевая идея — меньше останавливаться и просить подтверждения у пользователя. На практике это означает, что GPT-5.5 способна планировать многошаговые задачи, использовать инструменты и проверять собственные результаты без постоянного вмешательства оператора.

МодельTerminal-Bench 2.0Expert-SWESWE-Bench ProAI Analysis Index
GPT-5.582,7%73,1%58,6%60
GPT-5.475,1%68,5%
Claude Opus 4.769,4%64,3%57
Gemini 3.1 Pro68,5%57

В Terminal-Bench 2.0, который проверяет агентные рабочие процессы в командной строке, GPT-5.5 набрала 82,7% — против 75,1% у GPT-5.4. Для сравнения: Claude Opus 4.7 от Anthropic показала 69,4%, Gemini 3.1 Pro от Google — 68,5%. Во внутреннем тесте Expert-SWE, где задачи требуют в среднем около 20 часов работы инженера, результат — 73,1% против 68,5% у предшественницы. В SWE-Bench Pro, основанном на реальных задачах с GitHub, картина иная: Claude Opus 4.7 набрала 64,3% против 58,6% у GPT-5.5, хотя OpenAI указала на признаки запоминания тестовых данных в результатах Anthropic.

Контекстное окно — 1 млн токенов в API и 400 тыс. в Codex: вся средняя кодовая база в одном промпте.

OpenAI выпустила GPT-5.5: акцент на агентное программирование и двойная цена
· Источник: Habr AI

За пределами программирования выделяются несколько показателей. GDPval — 84,9%: тест охватывает 44 реальные профессии, включая финансы и юридические исследования, и фиксирует, в каком проценте сравнений модель соответствует или превосходит профессионалов. Разрыв с GPT-5.4 здесь невелик — 84,9% против 83,0%, что говорит о том, что для рутинных задач ChatGPT прирост будет скромным. OSWorld-Verified — 78,7%: модель управляет реальными графическими интерфейсами, кликает по элементам и выполняет смешанные программные задачи. BrowseComp у версии Pro — 90,1%: поиск труднодоступной информации в интернете. По данным OpenAI, GPT-5.5 возглавила Artificial Analysis Intelligence Index с 60 баллами — на три балла выше Claude Opus 4.7 и Gemini 3.1 Pro Preview.

Релиз включает две версии. Стандартная GPT-5.5 — вариант по умолчанию для производственных задач. GPT-5.5 Pro применяет параллельные вычисления во время выполнения на той же базовой модели, чтобы повысить точность в сложных сценариях: исследовательский синтез, технический анализ, области с высокой ценой ошибки. Контекстное окно — 1 млн токенов в API и 400 тыс. в Codex, что позволяет загрузить кодовую базу среднего размера целиком без дополнительных пайплайнов поиска.

В Codex появился режим Fast: генерация токенов в 1,5 раза быстрее при стоимости в 2,5 раза выше стандартной — для интерактивных сессий, где задержка нарушает рабочий ритм. Также введены пять уровней рассуждения — от отключённого до «xhigh», что даёт разработчикам контроль над балансом скорость/качество/стоимость.

Цена стала главным предметом обсуждения. Стандартный API: $5 за млн входных токенов и $30 за млн выходных — ровно вдвое дороже GPT-5.4 ($2,50 и $15). GPT-5.5 Pro: $30 и $180 за млн токенов соответственно. OpenAI парирует тем, что модель генерирует примерно на 40% меньше выходных токенов при сопоставимом результате. Независимый анализ Office Chai оценил реальный рост затрат примерно в 20% с учётом этого сокращения — для задач в Codex часть пользователей может потратить даже меньше, чем прежде.