GPT-5.5 появилась в ChatGPT и Codex для подписчиков Plus, Pro, Business и Enterprise — доступ через API обещан позже. OpenAI называет её первой полностью переобученной базовой моделью со времён GPT-4.5: предыдущие релизы серии GPT-5.x были преимущественно доработками поверх существующей архитектуры.
Модель проектировалась под агентные сценарии: длинные инженерные задачи, автономная работа с компьютером, ранние этапы научных исследований. Ключевая идея — меньше останавливаться и просить подтверждения у пользователя. На практике это означает, что GPT-5.5 способна планировать многошаговые задачи, использовать инструменты и проверять собственные результаты без постоянного вмешательства оператора.
| Модель | Terminal-Bench 2.0 | Expert-SWE | SWE-Bench Pro | AI Analysis Index |
|---|---|---|---|---|
| GPT-5.5 | 82,7% | 73,1% | 58,6% | 60 |
| GPT-5.4 | 75,1% | 68,5% | — | — |
| Claude Opus 4.7 | 69,4% | — | 64,3% | 57 |
| Gemini 3.1 Pro | 68,5% | — | — | 57 |
В Terminal-Bench 2.0, который проверяет агентные рабочие процессы в командной строке, GPT-5.5 набрала 82,7% — против 75,1% у GPT-5.4. Для сравнения: Claude Opus 4.7 от Anthropic показала 69,4%, Gemini 3.1 Pro от Google — 68,5%. Во внутреннем тесте Expert-SWE, где задачи требуют в среднем около 20 часов работы инженера, результат — 73,1% против 68,5% у предшественницы. В SWE-Bench Pro, основанном на реальных задачах с GitHub, картина иная: Claude Opus 4.7 набрала 64,3% против 58,6% у GPT-5.5, хотя OpenAI указала на признаки запоминания тестовых данных в результатах Anthropic.
Контекстное окно — 1 млн токенов в API и 400 тыс. в Codex: вся средняя кодовая база в одном промпте.

За пределами программирования выделяются несколько показателей. GDPval — 84,9%: тест охватывает 44 реальные профессии, включая финансы и юридические исследования, и фиксирует, в каком проценте сравнений модель соответствует или превосходит профессионалов. Разрыв с GPT-5.4 здесь невелик — 84,9% против 83,0%, что говорит о том, что для рутинных задач ChatGPT прирост будет скромным. OSWorld-Verified — 78,7%: модель управляет реальными графическими интерфейсами, кликает по элементам и выполняет смешанные программные задачи. BrowseComp у версии Pro — 90,1%: поиск труднодоступной информации в интернете. По данным OpenAI, GPT-5.5 возглавила Artificial Analysis Intelligence Index с 60 баллами — на три балла выше Claude Opus 4.7 и Gemini 3.1 Pro Preview.
Релиз включает две версии. Стандартная GPT-5.5 — вариант по умолчанию для производственных задач. GPT-5.5 Pro применяет параллельные вычисления во время выполнения на той же базовой модели, чтобы повысить точность в сложных сценариях: исследовательский синтез, технический анализ, области с высокой ценой ошибки. Контекстное окно — 1 млн токенов в API и 400 тыс. в Codex, что позволяет загрузить кодовую базу среднего размера целиком без дополнительных пайплайнов поиска.
В Codex появился режим Fast: генерация токенов в 1,5 раза быстрее при стоимости в 2,5 раза выше стандартной — для интерактивных сессий, где задержка нарушает рабочий ритм. Также введены пять уровней рассуждения — от отключённого до «xhigh», что даёт разработчикам контроль над балансом скорость/качество/стоимость.
Цена стала главным предметом обсуждения. Стандартный API: $5 за млн входных токенов и $30 за млн выходных — ровно вдвое дороже GPT-5.4 ($2,50 и $15). GPT-5.5 Pro: $30 и $180 за млн токенов соответственно. OpenAI парирует тем, что модель генерирует примерно на 40% меньше выходных токенов при сопоставимом результате. Независимый анализ Office Chai оценил реальный рост затрат примерно в 20% с учётом этого сокращения — для задач в Codex часть пользователей может потратить даже меньше, чем прежде.



