GPT-5.5 — новая модель OpenAI, рассчитанная на так называемые агентные сценарии: вместо одного ответа на вопрос она самостоятельно планирует последовательность действий, переключается между инструментами и завершает задачу без участия пользователя. OpenAI позиционирует её как «новый класс интеллекта для реальной работы», выделяя четыре приоритетных направления: написание и отладку кода, работу с компьютером, аналитику и ранние стадии научных исследований.

Агентные модели — это следующий шаг после обычных чат-ботов. Если стандартный языковой ассистент отвечает на запрос и ждёт следующего, агентная модель получает цель и сама разбивает её на шаги: запускает поиск, пишет код, проверяет результат, исправляет ошибки. Такой подход требует не только качественных ответов, но и надёжного управления инструментами и долгосрочным контекстом — именно здесь GPT-5.5 показывает наибольший прогресс.

GPT-5.5GPT-5.4GPT-5.5 ProGPT-5.4 ProClaude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%--69.4%68.5%
Expert-SWE (Internal)73.1%68.5%----
GDPval (wins or ties)84.9%83.0%82.3%82.0%80.3%67.3%
OSWorld-Verified78.7%75.0%--78.0%-
Toolathlon55.6%54.6%---48.8%
BrowseComp84.4%82.7%90.1%89.3%79.3%85.9%
FrontierMath Tier 1-351.7%47.6%52.4%50.0%43.8%36.9%
FrontierMath Tier 435.4%27.1%39.6%38.0%22.9%16.7%
CyberGym81.8%79.0%--73.1%-

На Terminal-Bench 2.0, специализированном тесте для агентных рабочих процессов в коде, GPT-5.5 набирает 82,7% — на 7,6 процентного пункта выше GPT-5.4 (75,1%) и заметно выше Claude Opus 4.7 от Anthropic (69,4%) и Gemini 3.1 Pro от Google (68,5%). На сложных математических задачах FrontierMath Tier 4 разрыв ещё шире: 35,4% у GPT-5.5 против 22,9% у Claude Opus 4.7 и 16,7% у Gemini 3.1 Pro. Версия GPT-5.5 Pro поднимает этот показатель до 39,6%.

Цена API выросла вдвое: $5/$30 за млн входящих/исходящих токенов против $2,50/$15 у GPT-5.4.

OpenAI выпустила GPT-5.5: агентная модель по двойной цене API
· Источник: The Decoder

Один из наиболее впечатляющих результатов — работа с длинными текстами. На benchmark MRCR v2, который проверяет, насколько точно модель находит несколько фрагментов информации в очень длинных документах, GPT-5.5 достигает 74,0% при контексте 512K–1M токенов. У GPT-5.4 тот же показатель составлял 36,6%. На тесте Graphwalks BFS с миллионом токенов рост ещё более резкий: с 9,4% до 45,4%.

Тем не менее лидерство не абсолютно. На SWE-Bench Pro, который оценивает решение реальных задач из GitHub-репозиториев, Claude Opus 4.7 опережает GPT-5.5: 64,3% против 58,6%. На MCP Atlas — тесте на использование инструментов от Scale AI — GPT-5.5 набирает 75,3%, уступая Claude Opus 4.7 (79,1%) и Gemini 3.1 Pro (78,2%). На GDPval, benchmark-е, имитирующем профессиональные задачи из 44 специальностей, прогресс минимален: 84,9% против 83,0% у предшественника. Это означает, что для большинства повседневных рабочих сценариев разница между GPT-5.5 и GPT-5.4 может быть практически незаметной.

Цена вопроса — буквально. Через API GPT-5.5 стоит $5 за миллион входящих токенов и $30 за миллион исходящих при контекстном окне в один миллион токенов. Это ровно вдвое дороже GPT-5.4 ($2,50 и $15 соответственно). GPT-5.5 Pro обходится ещё значительно дороже: $30 за миллион входящих и $180 за миллион исходящих токенов. OpenAI аргументирует рост цены тем, что модель тратит меньше токенов на выполнение аналогичных задач в Codex, а значит, итоговые расходы могут оказаться сопоставимыми. Проверить этот тезис на практике пользователи смогут сами — доступ к API обещан «очень скоро».

Отдельного внимания заслуживает инфраструктурный эффект: по словам OpenAI, GPT-5.5 совместно с Codex участвовала в оптимизации собственной серверной инфраструктуры компании — анализировала паттерны трафика и писала алгоритмы балансировки нагрузки, что дало прирост скорости генерации токенов более чем на 20%. Модель разрабатывалась и оптимизировалась под системы NVIDIA GB200 и GB300-NVL72. По классификации Preparedness Framework OpenAI, возможности GPT-5.5 в области кибербезопасности оцениваются как «высокие» — тот же уровень, что у предшественников, но не «критический».