OpenAI выпустила GPT-5.5: агентная модель по двойной цене API

Подготовлено редакцией Malakhov AI

The Decoder·23 апр.·3 минИсследованияИндустрия

GPT-5.5 поступила в продажу для платных пользователей ChatGPT и Codex с ценой API $5 за миллион входящих токенов — вдвое дороже предшественника GPT-5.4. Модель ориентирована на автономное выполнение многошаговых задач с использованием внешних инструментов.

Кратко

—На benchmark Terminal-Bench 2.0 GPT-5.5 набирает 82,7% — на 7,6 п.п. выше GPT-5.4 и на 13 п.п. выше Claude Opus 4.7.
—Цена API выросла вдвое: $5/$30 за млн входящих/исходящих токенов против $2,50/$15 у GPT-5.4.
—На длинных контекстах (512K–1M токенов) точность поиска информации выросла с 36,6% до 74,0% по MRCR v2.
—GPT-5.5 Pro стоит $30/$180 за млн токенов; OpenAI пока раскрыла результаты только трёх из девяти benchmark-тестов для Pro.
—На SWE-Bench Pro, тесте по реальным задачам GitHub, Claude Opus 4.7 опережает GPT-5.5: 64,3% против 58,6%.

Видео по теме

Introducing GPT-5.5 · Источник: The Decoder

Глоссарий · 6 терминов▾

Агентная модель: Языковая модель, способная самостоятельно планировать и выполнять многошаговые задачи, используя внешние инструменты (поиск, код, файлы), без постоянного участия пользователя.
Benchmark: Стандартизированный тест для сравнения производительности разных моделей на одних и тех же задачах.
Контекстное окно: Максимальный объём текста (в токенах), который модель может обработать за один запрос — чем оно больше, тем длиннее документы она способна анализировать.
Токен: Единица текста, которую обрабатывает языковая модель; примерно соответствует 3–4 символам или 0,75 слова в английском тексте.
API: Программный интерфейс, позволяющий разработчикам встраивать возможности модели в собственные приложения и сервисы.
Preparedness Framework: Внутренняя система оценки рисков OpenAI, по которой модели классифицируются по уровню потенциальной опасности в ключевых областях — от кибербезопасности до биологических угроз.

GPT-5.5 — новая модель OpenAI, рассчитанная на так называемые агентные сценарии: вместо одного ответа на вопрос она самостоятельно планирует последовательность действий, переключается между инструментами и завершает задачу без участия пользователя. OpenAI позиционирует её как «новый класс интеллекта для реальной работы», выделяя четыре приоритетных направления: написание и отладку кода, работу с компьютером, аналитику и ранние стадии научных исследований.

Агентные модели — это следующий шаг после обычных чат-ботов. Если стандартный языковой ассистент отвечает на запрос и ждёт следующего, агентная модель получает цель и сама разбивает её на шаги: запускает поиск, пишет код, проверяет результат, исправляет ошибки. Такой подход требует не только качественных ответов, но и надёжного управления инструментами и долгосрочным контекстом — именно здесь GPT-5.5 показывает наибольший прогресс.

	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	-	-	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	-	-	-	-
GDPval (wins or ties)	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	-	-	78.0%	-
Toolathlon	55.6%	54.6%	-	-	-	48.8%
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
FrontierMath Tier 1-3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
CyberGym	81.8%	79.0%	-	-	73.1%	-

На Terminal-Bench 2.0, специализированном тесте для агентных рабочих процессов в коде, GPT-5.5 набирает 82,7% — на 7,6 процентного пункта выше GPT-5.4 (75,1%) и заметно выше Claude Opus 4.7 от Anthropic (69,4%) и Gemini 3.1 Pro от Google (68,5%). На сложных математических задачах FrontierMath Tier 4 разрыв ещё шире: 35,4% у GPT-5.5 против 22,9% у Claude Opus 4.7 и 16,7% у Gemini 3.1 Pro. Версия GPT-5.5 Pro поднимает этот показатель до 39,6%.

Цена API выросла вдвое: $5/$30 за млн входящих/исходящих токенов против $2,50/$15 у GPT-5.4.

Один из наиболее впечатляющих результатов — работа с длинными текстами. На benchmark MRCR v2, который проверяет, насколько точно модель находит несколько фрагментов информации в очень длинных документах, GPT-5.5 достигает 74,0% при контексте 512K–1M токенов. У GPT-5.4 тот же показатель составлял 36,6%. На тесте Graphwalks BFS с миллионом токенов рост ещё более резкий: с 9,4% до 45,4%.

Тем не менее лидерство не абсолютно. На SWE-Bench Pro, который оценивает решение реальных задач из GitHub-репозиториев, Claude Opus 4.7 опережает GPT-5.5: 64,3% против 58,6%. На MCP Atlas — тесте на использование инструментов от Scale AI — GPT-5.5 набирает 75,3%, уступая Claude Opus 4.7 (79,1%) и Gemini 3.1 Pro (78,2%). На GDPval, benchmark-е, имитирующем профессиональные задачи из 44 специальностей, прогресс минимален: 84,9% против 83,0% у предшественника. Это означает, что для большинства повседневных рабочих сценариев разница между GPT-5.5 и GPT-5.4 может быть практически незаметной.

Цена вопроса — буквально. Через API GPT-5.5 стоит $5 за миллион входящих токенов и $30 за миллион исходящих при контекстном окне в один миллион токенов. Это ровно вдвое дороже GPT-5.4 ($2,50 и $15 соответственно). GPT-5.5 Pro обходится ещё значительно дороже: $30 за миллион входящих и $180 за миллион исходящих токенов. OpenAI аргументирует рост цены тем, что модель тратит меньше токенов на выполнение аналогичных задач в Codex, а значит, итоговые расходы могут оказаться сопоставимыми. Проверить этот тезис на практике пользователи смогут сами — доступ к API обещан «очень скоро».

Отдельного внимания заслуживает инфраструктурный эффект: по словам OpenAI, GPT-5.5 совместно с Codex участвовала в оптимизации собственной серверной инфраструктуры компании — анализировала паттерны трафика и писала алгоритмы балансировки нагрузки, что дало прирост скорости генерации токенов более чем на 20%. Модель разрабатывалась и оптимизировалась под системы NVIDIA GB200 и GB300-NVL72. По классификации Preparedness Framework OpenAI, возможности GPT-5.5 в области кибербезопасности оцениваются как «высокие» — тот же уровень, что у предшественников, но не «критический».

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ