ARC Prize Foundation проанализировала 160 игровых сессий двух флагманских моделей — GPT-5.5 от OpenAI и Opus 4.7 от Anthropic — на бенчмарке ARC-AGI-3, выпущенном в конце марта 2026 года. Итог: GPT-5.5 набрал 0,43% при затратах около $10 000, Opus 4.7 — 0,18%. Ни одна из протестированных моделей не преодолела отметку в 1%. Люди без специальной подготовки решали те же задачи.
ARC-AGI-3 устроен иначе, чем большинство ИИ-бенчмарков. Вместо статичных паттернов модели попадают в интерактивные пошаговые игровые среды: 135 уникальных окружений, в каждом из которых нужно самостоятельно исследовать пространство, формулировать гипотезы и выполнять план действий без каких-либо инструкций. Именно такой формат приближает задачи к реальной работе агентов — навигации по незнакомому сайту, работе с внутренним инструментом или недокументированным API.
| Модель | Результат на ARC-AGI-3 | Стоимость запуска |
|---|---|---|
| GPT-5.5 | 0,43% | ~$10 000 |
| Opus 4.7 | 0,18% | не указана |
Фонд изучил не только итоговые счета, но и «reasoning traces» — записи того, как модель документирует ход своих рассуждений. Это позволило точно установить, где модель формировала гипотезу, где отвергала верную и где застревала на ошибочной. Анализ выявил три повторяющихся паттерна.
Первая ошибка: модели замечают локальные эффекты, но не складывают их в целостную модель мира.

Первый паттерн — локальные наблюдения без общей картины. Модели корректно фиксируют отдельные эффекты, но не собирают их в рабочую модель мира. В игре cd82 Opus 4.7 к четвёртому шагу знал, что ACTION3 вращает контейнер, а к шестому — что ACTION5 выливает краску. Но модель так и не связала эти наблюдения в понимание того, что ведро нужно сначала выровнять, а потом опустить, чтобы воспроизвести целевое изображение.
Второй паттерн — ложные аналогии из обучающих данных. Сталкиваясь с незнакомой средой, модели подбирают визуально похожую игру из тренировочного корпуса и строят на этом целую теорию механик. В сессиях встречались ошибочные отождествления с Tetris, Frogger, Sokoban, Breakout, Pong и Boulder Dash. GPT-5.5 в среде ls20 — задаче о комбинациях клавиш — написал в reasoning trace: «Это может быть похоже на Breakout: кирпичи сверху и ракетка. Центральный объект может быть мячом». Это предположение полностью заблокировало прогресс. Человек, знакомый с Breakout, почти никогда не совершил бы такой ошибки, потому что сравнивал бы механики, а не визуальный облик.
Третий паттерн — ложное подтверждение теории через случайный успех. Даже решив уровень, модель не проверяет, почему стратегия сработала. В игре ka59 Opus 4.7 прошёл первый уровень за 37 действий, опираясь на ложную теорию о телепортации персонажа. На деле игра требовала сопоставления форм и толкания объектов. Уровень поддался лишь потому, что его простая структура случайно привела к цели. Модель восприняла это как подтверждение телепортационной теории, и на втором уровне та окончательно закрепилась — выбраться из ошибки модель уже не смогла.
Автор анализа Грег Камрадт из ARC Prize Foundation формулирует ключевое различие между двумя моделями через понятие компрессии: «Opus сжал наблюдения в уверенную, но неверную теорию. GPT-5.5 с трудом сжимал вообще». Opus 4.7 лучше улавливает механики на ранних шагах, но агрессивно фиксируется на ложном правиле. GPT-5.5 генерирует более широкое пространство гипотез — и чаще попадает на верную идею, — но не может перейти к действию: в ar25 модель правильно определила эффект зеркального отражения, а затем продолжила перебирать Tetris, Frogger, Pong и Tower of Hanoi вместо того, чтобы следовать верному наблюдению.

Фонд намерен продолжать аудит каждого крупного релиза с помощью ARC-AGI-3. Выводы перекликаются с другими недавними исследованиями: команда Apple показала, что reasoning-модели при росте сложности в управляемых задачах не только хуже справляются, но и парадоксально меньше рассуждают. Масштабный анализ более 171 000 reasoning traces в когнитивной науке зафиксировал, что при столкновении с трудными задачами языковые модели откатываются к простым стратегиям по умолчанию. Все три паттерна, выявленных на ARC-AGI-3, укладываются в одну картину: модели интерполируют между усвоенными паттернами вместо того, чтобы строить абстрактные правила и причинно-следственные модели мира.


