GPT-5.5 — новая модель OpenAI, рассчитанная на так называемые агентные сценарии: вместо одного ответа на вопрос она самостоятельно планирует последовательность действий, переключается между инструментами и завершает задачу без участия пользователя. OpenAI позиционирует её как «новый класс интеллекта для реальной работы», выделяя четыре приоритетных направления: написание и отладку кода, работу с компьютером, аналитику и ранние стадии научных исследований.
Агентные модели — это следующий шаг после обычных чат-ботов. Если стандартный языковой ассистент отвечает на запрос и ждёт следующего, агентная модель получает цель и сама разбивает её на шаги: запускает поиск, пишет код, проверяет результат, исправляет ошибки. Такой подход требует не только качественных ответов, но и надёжного управления инструментами и долгосрочным контекстом — именно здесь GPT-5.5 показывает наибольший прогресс.
| GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
| Expert-SWE (Internal) | 73.1% | 68.5% | - | - | - | - |
| GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | - | - | 78.0% | - |
| Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath Tier 1-3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | - | - | 73.1% | - |
На Terminal-Bench 2.0, специализированном тесте для агентных рабочих процессов в коде, GPT-5.5 набирает 82,7% — на 7,6 процентного пункта выше GPT-5.4 (75,1%) и заметно выше Claude Opus 4.7 от Anthropic (69,4%) и Gemini 3.1 Pro от Google (68,5%). На сложных математических задачах FrontierMath Tier 4 разрыв ещё шире: 35,4% у GPT-5.5 против 22,9% у Claude Opus 4.7 и 16,7% у Gemini 3.1 Pro. Версия GPT-5.5 Pro поднимает этот показатель до 39,6%.
Цена API выросла вдвое: $5/$30 за млн входящих/исходящих токенов против $2,50/$15 у GPT-5.4.

Один из наиболее впечатляющих результатов — работа с длинными текстами. На benchmark MRCR v2, который проверяет, насколько точно модель находит несколько фрагментов информации в очень длинных документах, GPT-5.5 достигает 74,0% при контексте 512K–1M токенов. У GPT-5.4 тот же показатель составлял 36,6%. На тесте Graphwalks BFS с миллионом токенов рост ещё более резкий: с 9,4% до 45,4%.
Тем не менее лидерство не абсолютно. На SWE-Bench Pro, который оценивает решение реальных задач из GitHub-репозиториев, Claude Opus 4.7 опережает GPT-5.5: 64,3% против 58,6%. На MCP Atlas — тесте на использование инструментов от Scale AI — GPT-5.5 набирает 75,3%, уступая Claude Opus 4.7 (79,1%) и Gemini 3.1 Pro (78,2%). На GDPval, benchmark-е, имитирующем профессиональные задачи из 44 специальностей, прогресс минимален: 84,9% против 83,0% у предшественника. Это означает, что для большинства повседневных рабочих сценариев разница между GPT-5.5 и GPT-5.4 может быть практически незаметной.
Цена вопроса — буквально. Через API GPT-5.5 стоит $5 за миллион входящих токенов и $30 за миллион исходящих при контекстном окне в один миллион токенов. Это ровно вдвое дороже GPT-5.4 ($2,50 и $15 соответственно). GPT-5.5 Pro обходится ещё значительно дороже: $30 за миллион входящих и $180 за миллион исходящих токенов. OpenAI аргументирует рост цены тем, что модель тратит меньше токенов на выполнение аналогичных задач в Codex, а значит, итоговые расходы могут оказаться сопоставимыми. Проверить этот тезис на практике пользователи смогут сами — доступ к API обещан «очень скоро».
Отдельного внимания заслуживает инфраструктурный эффект: по словам OpenAI, GPT-5.5 совместно с Codex участвовала в оптимизации собственной серверной инфраструктуры компании — анализировала паттерны трафика и писала алгоритмы балансировки нагрузки, что дало прирост скорости генерации токенов более чем на 20%. Модель разрабатывалась и оптимизировалась под системы NVIDIA GB200 и GB300-NVL72. По классификации Preparedness Framework OpenAI, возможности GPT-5.5 в области кибербезопасности оцениваются как «высокие» — тот же уровень, что у предшественников, но не «критический».


