ARC-AGI-3 выявил три системные ошибки мышления у GPT-5.5 и Opus 4.7

Подготовлено редакцией Malakhov AI

The Decoder·2 мая·3 минИсследованияИндустрия

GPT-5.5 набирает 0,43% на бенчмарке ARC-AGI-3, потратив около $10 000, а Opus 4.7 — лишь 0,18%: ни одна из топовых моделей не преодолела отметку в 1%. Анализ 160 игровых сессий показал, что за провалами стоят три повторяющихся паттерна ошибок.

Кратко

—GPT-5.5 и Opus 4.7 набрали менее 1% на ARC-AGI-3 — люди без подготовки решали те же задачи.
—Первая ошибка: модели замечают локальные эффекты, но не складывают их в целостную модель мира.
—Вторая ошибка: незнакомые среды модели путают с играми из обучающих данных — Tetris, Breakout, Pong.
—Третья ошибка: решив уровень по ложной теории, модель закрепляет неверное предположение и переносит его дальше.
—Opus 4.7 агрессивно фиксируется на неверной гипотезе, GPT-5.5 генерирует верные идеи, но не может на них остановиться.

Глоссарий · 5 терминов▾

ARC-AGI-3: Бенчмарк от ARC Prize Foundation, где ИИ-агенты должны самостоятельно исследовать интерактивные игровые среды, формулировать гипотезы и действовать без инструкций.
reasoning trace: Запись внутренних рассуждений модели в процессе решения задачи — позволяет отследить, как формировались и отвергались гипотезы.
бенчмарк: Стандартизированный тест для сравнения производительности ИИ-систем по заданным критериям.
компрессия (в контексте рассуждений): Способность модели сворачивать множество наблюдений в одно связное объяснение или правило.
каузальная модель мира: Внутреннее представление о причинно-следственных связях в среде, позволяющее предсказывать последствия действий.

ARC Prize Foundation проанализировала 160 игровых сессий двух флагманских моделей — GPT-5.5 от OpenAI и Opus 4.7 от Anthropic — на бенчмарке ARC-AGI-3, выпущенном в конце марта 2026 года. Итог: GPT-5.5 набрал 0,43% при затратах около $10 000, Opus 4.7 — 0,18%. Ни одна из протестированных моделей не преодолела отметку в 1%. Люди без специальной подготовки решали те же задачи.

ARC-AGI-3 устроен иначе, чем большинство ИИ-бенчмарков. Вместо статичных паттернов модели попадают в интерактивные пошаговые игровые среды: 135 уникальных окружений, в каждом из которых нужно самостоятельно исследовать пространство, формулировать гипотезы и выполнять план действий без каких-либо инструкций. Именно такой формат приближает задачи к реальной работе агентов — навигации по незнакомому сайту, работе с внутренним инструментом или недокументированным API.

Модель	Результат на ARC-AGI-3	Стоимость запуска
GPT-5.5	0,43%	~$10 000
Opus 4.7	0,18%	не указана

Фонд изучил не только итоговые счета, но и «reasoning traces» — записи того, как модель документирует ход своих рассуждений. Это позволило точно установить, где модель формировала гипотезу, где отвергала верную и где застревала на ошибочной. Анализ выявил три повторяющихся паттерна.

Первая ошибка: модели замечают локальные эффекты, но не складывают их в целостную модель мира.

No frontier model cracks the 1 percent mark on the ARC-AGI-3 leaderboard. GPT-5.5 leads with 0.4 percent at a cost of around $10,000. | Image: ARC Prize Foundation · Источник: The Decoder

Первый паттерн — локальные наблюдения без общей картины. Модели корректно фиксируют отдельные эффекты, но не собирают их в рабочую модель мира. В игре cd82 Opus 4.7 к четвёртому шагу знал, что ACTION3 вращает контейнер, а к шестому — что ACTION5 выливает краску. Но модель так и не связала эти наблюдения в понимание того, что ведро нужно сначала выровнять, а потом опустить, чтобы воспроизвести целевое изображение.

Второй паттерн — ложные аналогии из обучающих данных. Сталкиваясь с незнакомой средой, модели подбирают визуально похожую игру из тренировочного корпуса и строят на этом целую теорию механик. В сессиях встречались ошибочные отождествления с Tetris, Frogger, Sokoban, Breakout, Pong и Boulder Dash. GPT-5.5 в среде ls20 — задаче о комбинациях клавиш — написал в reasoning trace: «Это может быть похоже на Breakout: кирпичи сверху и ракетка. Центральный объект может быть мячом». Это предположение полностью заблокировало прогресс. Человек, знакомый с Breakout, почти никогда не совершил бы такой ошибки, потому что сравнивал бы механики, а не визуальный облик.

Третий паттерн — ложное подтверждение теории через случайный успех. Даже решив уровень, модель не проверяет, почему стратегия сработала. В игре ka59 Opus 4.7 прошёл первый уровень за 37 действий, опираясь на ложную теорию о телепортации персонажа. На деле игра требовала сопоставления форм и толкания объектов. Уровень поддался лишь потому, что его простая структура случайно привела к цели. Модель восприняла это как подтверждение телепортационной теории, и на втором уровне та окончательно закрепилась — выбраться из ошибки модель уже не смогла.

Автор анализа Грег Камрадт из ARC Prize Foundation формулирует ключевое различие между двумя моделями через понятие компрессии: «Opus сжал наблюдения в уверенную, но неверную теорию. GPT-5.5 с трудом сжимал вообще». Opus 4.7 лучше улавливает механики на ранних шагах, но агрессивно фиксируется на ложном правиле. GPT-5.5 генерирует более широкое пространство гипотез — и чаще попадает на верную идею, — но не может перейти к действию: в ar25 модель правильно определила эффект зеркального отражения, а затем продолжила перебирать Tetris, Frogger, Pong и Tower of Hanoi вместо того, чтобы следовать верному наблюдению.

Opus 4.7 understands that ACTION3 rotates objects but fails to grasp the overarching game mechanics. | Image: ARC Prize Foundation · Источник: The Decoder

Фонд намерен продолжать аудит каждого крупного релиза с помощью ARC-AGI-3. Выводы перекликаются с другими недавними исследованиями: команда Apple показала, что reasoning-модели при росте сложности в управляемых задачах не только хуже справляются, но и парадоксально меньше рассуждают. Масштабный анализ более 171 000 reasoning traces в когнитивной науке зафиксировал, что при столкновении с трудными задачами языковые модели откатываются к простым стратегиям по умолчанию. Все три паттерна, выявленных на ARC-AGI-3, укладываются в одну картину: модели интерполируют между усвоенными паттернами вместо того, чтобы строить абстрактные правила и причинно-следственные модели мира.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ