В начале XX века немецкий конь Умный Ганс поражал публику способностью решать арифметические задачи, выстукивая ответ копытом. Позже выяснилось, что лошадь считывала едва заметные сигналы от людей вокруг — а не вычисляла. Этот эпизод до сих пор остаётся метафорой для дискуссии об измерении интеллекта: тест может фиксировать не то, что нам кажется.

Сегодня та же проблема стоит перед разработчиками AGI-бенчмарков. OpenAI, Anthropic и Google DeepMind официально заявили, что ожидают появления искусственного общего интеллекта — AGI, то есть системы человеческого уровня — в течение нескольких лет. Но прежде чем зафиксировать этот момент, нужно договориться, как его измерить. А здесь начинаются трудности.

БенчмаркЧто проверяетСтатус
ARC-AGI-1 (2019)Абстрактное мышление: графические головоломкиМодели научились решать через оптимизацию
ARC-AGI-2 (2025)Усложнённые графические головоломкиЧастично решается, результаты ограничены
ARC-AGI-3Новейшая версия головоломокАгенты пока не умеют решать
General-BenchТекст, изображения, видео, аудио, 3D; рассуждение, этика, креативностьНи одна модель не воспринимает все 5 модальностей
Тест TongЦенности, целеполагание, взаимодействие в виртуальной средеВ разработке, генерирует бесконечные задачи

Исследование, опубликованное в журнале Frontiers in Psychology в августе 2023 года, насчитало около 70 различных определений интеллекта в научной литературе. Конкурирующие теории описывают его принципиально по-разному. Модель общего фактора (g) предполагает единую когнитивную способность, которая проявляется во всём. Теория Кэттелла-Хорна-Кэрролла (CHC) — наиболее эмпирически подтверждённая — делит интеллект на три уровня: общий, широкие способности и узкие. Теория множественного интеллекта Гарднера вовсе отказывается от единого показателя в пользу набора независимых способностей. Триархическая теория Стернберга выделяет аналитический, креативный и практический компоненты. Ни одна из них не стала общепринятой.

LLM уже превосходят людей по многим узким когнитивным способностям из теории CHC, но это не означает полноценной замены.

LLM уже превосходят среднего человека по многим узким когнитивным способностям из нижнего стратума CHC: чтению, пониманию речи, работе с текстом. Но это не означает, что модель способна полностью заменить человека в интеллектуальной работе. Даже если все отдельные способности будут превзойдены, архитектурные различия между биологическим мозгом и трансформером делают прямое сравнение методологически сомнительным: у человека есть биологические эмоции, гормональные эффекты, а вопрос о сознании у LLM остаётся открытым.

Отдельная проблема — сами бенчмарки. Разработчики моделей оптимизируют системы под существующие тесты, что быстро обесценивает результаты. Это хорошо видно на примере ARC-AGI — набора графических головоломок Франсуа Шолле, где модель должна вывести правило из демонстраций и применить его. Версия ARC-AGI-1 (2019) была постепенно «взломана» оптимизацией; ARC-AGI-2 (2025) оказалась сложнее; только что представленный ARC-AGI-3 агенты пока не умеют решать вовсе.

Параллельно появляются принципиально иные подходы к тестированию. General-Bench использует пять входных модальностей — текст, изображения, видео, аудио и 3D — и проверяет распознавание, рассуждение, креативность и этическое суждение. Ни одна модель пока не способна одновременно воспринимать все пять. Тест Tong помещает «виртуального человека» в случайные ситуации — например, деньги на полу или плачущий ребёнок — и наблюдает за реакцией ИИ, проверяя соответствие человеческим ценностям и способность ставить собственные цели. Ещё один класс тестов — виртуальные миры вроде Eve Online, где ИИ запускают в автономное плавание, требующее долгосрочного планирования и взаимодействия.

На фоне этих дискуссий в отрасли набирает силу идея роевого интеллекта: вместо масштабирования одной большой модели — масштабирование через взаимодействие множества специализированных агентов. Большинство передовых моделей уже используют архитектуру MoE (Mixture of Experts), где разные входные данные направляются к разным подмножествам параметров. Многоагентные системы применяют ту же логику на уровне агентов, каждый из которых имеет собственные веса. Это меняет и саму постановку вопроса об измерении интеллекта: если интеллект масштабируется через взаимодействия, а не через индивидуальные способности, то тест одной модели теряет смысл.

Понятие «умный» исторически менялось: до появления энциклопедий и интернета умным считался человек, знающий много фактов; сейчас ценится скорость работы с информацией. Вероятно, критерии будут меняться и дальше — вместе с тем, что умеют делать сами модели.