OpenAI выпустила GPT-5.5: акцент на агентное программирование и двойная цена

Подготовлено редакцией Malakhov AI

Habr AI·28 апр.·3 минРоссияКод

GPT-5.5 стала первой полностью переобученной базовой моделью OpenAI со времён GPT-4.5 — в Terminal-Bench 2.0 она набрала 82,7% против 75,1% у предшественницы. Модель уже доступна в ChatGPT и Codex для подписчиков Plus, Pro, Business и Enterprise, однако цена API выросла вдвое.

Кратко

—В Terminal-Bench 2.0 GPT-5.5 набрала 82,7% — лучший результат среди публично доступных моделей.
—Контекстное окно — 1 млн токенов в API и 400 тыс. в Codex: вся средняя кодовая база в одном промпте.
—Стоимость API выросла вдвое: $5 за млн входных и $30 за млн выходных токенов против $2,50 и $15 у GPT-5.4.
—OpenAI заявляет о сокращении выходных токенов на ~40%, что частично компенсирует рост цены.
—Версия GPT-5.5 Pro использует параллельные вычисления и стоит $30/$180 за млн токенов.

Глоссарий · 7 терминов▾

агентное программирование: Режим работы языковой модели, при котором она самостоятельно планирует шаги, использует инструменты и проверяет результаты без постоянного участия пользователя.
Terminal-Bench 2.0: Benchmark, оценивающий способность модели выполнять агентные задачи в командной строке — написание скриптов, управление файлами, отладка.
SWE-Bench Pro: Тест на решение реальных задач из репозиториев GitHub: модель должна найти и исправить баг или реализовать функцию по описанию из issue.
контекстное окно: Максимальный объём текста (в токенах), который модель может обработать за один запрос — чем оно больше, тем длиннее документы или кодовые базы можно передавать целиком.
параллельные вычисления во время выполнения: Техника, при которой модель запускает несколько вариантов ответа одновременно и выбирает наилучший, повышая точность за счёт дополнительных вычислительных затрат.
GDPval: Benchmark, измеряющий производительность модели по 44 реальным профессиям — финансы, право, медицина и др. — путём сравнения её ответов с ответами профессионалов.
токен: Единица текста, которой оперирует языковая модель: примерно 0,75 слова в английском тексте; стоимость API рассчитывается за миллион токенов на входе и выходе.

GPT-5.5 появилась в ChatGPT и Codex для подписчиков Plus, Pro, Business и Enterprise — доступ через API обещан позже. OpenAI называет её первой полностью переобученной базовой моделью со времён GPT-4.5: предыдущие релизы серии GPT-5.x были преимущественно доработками поверх существующей архитектуры.

Модель проектировалась под агентные сценарии: длинные инженерные задачи, автономная работа с компьютером, ранние этапы научных исследований. Ключевая идея — меньше останавливаться и просить подтверждения у пользователя. На практике это означает, что GPT-5.5 способна планировать многошаговые задачи, использовать инструменты и проверять собственные результаты без постоянного вмешательства оператора.

Модель	Terminal-Bench 2.0	Expert-SWE	SWE-Bench Pro	AI Analysis Index
GPT-5.5	82,7%	73,1%	58,6%	60
GPT-5.4	75,1%	68,5%	—	—
Claude Opus 4.7	69,4%	—	64,3%	57
Gemini 3.1 Pro	68,5%	—	—	57

В Terminal-Bench 2.0, который проверяет агентные рабочие процессы в командной строке, GPT-5.5 набрала 82,7% — против 75,1% у GPT-5.4. Для сравнения: Claude Opus 4.7 от Anthropic показала 69,4%, Gemini 3.1 Pro от Google — 68,5%. Во внутреннем тесте Expert-SWE, где задачи требуют в среднем около 20 часов работы инженера, результат — 73,1% против 68,5% у предшественницы. В SWE-Bench Pro, основанном на реальных задачах с GitHub, картина иная: Claude Opus 4.7 набрала 64,3% против 58,6% у GPT-5.5, хотя OpenAI указала на признаки запоминания тестовых данных в результатах Anthropic.

Контекстное окно — 1 млн токенов в API и 400 тыс. в Codex: вся средняя кодовая база в одном промпте.

За пределами программирования выделяются несколько показателей. GDPval — 84,9%: тест охватывает 44 реальные профессии, включая финансы и юридические исследования, и фиксирует, в каком проценте сравнений модель соответствует или превосходит профессионалов. Разрыв с GPT-5.4 здесь невелик — 84,9% против 83,0%, что говорит о том, что для рутинных задач ChatGPT прирост будет скромным. OSWorld-Verified — 78,7%: модель управляет реальными графическими интерфейсами, кликает по элементам и выполняет смешанные программные задачи. BrowseComp у версии Pro — 90,1%: поиск труднодоступной информации в интернете. По данным OpenAI, GPT-5.5 возглавила Artificial Analysis Intelligence Index с 60 баллами — на три балла выше Claude Opus 4.7 и Gemini 3.1 Pro Preview.

Релиз включает две версии. Стандартная GPT-5.5 — вариант по умолчанию для производственных задач. GPT-5.5 Pro применяет параллельные вычисления во время выполнения на той же базовой модели, чтобы повысить точность в сложных сценариях: исследовательский синтез, технический анализ, области с высокой ценой ошибки. Контекстное окно — 1 млн токенов в API и 400 тыс. в Codex, что позволяет загрузить кодовую базу среднего размера целиком без дополнительных пайплайнов поиска.

В Codex появился режим Fast: генерация токенов в 1,5 раза быстрее при стоимости в 2,5 раза выше стандартной — для интерактивных сессий, где задержка нарушает рабочий ритм. Также введены пять уровней рассуждения — от отключённого до «xhigh», что даёт разработчикам контроль над балансом скорость/качество/стоимость.

Цена стала главным предметом обсуждения. Стандартный API: $5 за млн входных токенов и $30 за млн выходных — ровно вдвое дороже GPT-5.4 ($2,50 и $15). GPT-5.5 Pro: $30 и $180 за млн токенов соответственно. OpenAI парирует тем, что модель генерирует примерно на 40% меньше выходных токенов при сопоставимом результате. Независимый анализ Office Chai оценил реальный рост затрат примерно в 20% с учётом этого сокращения — для задач в Codex часть пользователей может потратить даже меньше, чем прежде.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

OpenAI выпустила GPT-5.5: акцент на агентное программирование и двойная цена

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США