Почему бенчмарки AGI никогда не станут объективными

Подготовлено редакцией Malakhov AI

Habr AI·18 мая·3 минРоссияКод

Исследование 2023 года насчитало около 70 определений интеллекта в научной литературе — и именно это делает создание объективных тестов для AGI принципиально неразрешимой задачей. Пока OpenAI, Anthropic и Google DeepMind обещают AGI «в течение нескольких лет», отрасль не может договориться даже о том, что именно измерять.

Кратко

—В научной литературе существует около 70 определений интеллекта — единого консенсуса нет даже для человека.
—LLM уже превосходят людей по многим узким когнитивным способностям из теории CHC, но это не означает полноценной замены.
—Разработчики моделей оптимизируют системы под конкретные бенчмарки, что обесценивает результаты тестов.
—Новые бенчмарки — ARC-AGI-2, General-Bench, тест Tong — пытаются охватить рассуждение, ценности и мультимодальность, но ни один ИИ пока не справляется с ними полностью.
—Архитектурные различия между человеком и моделью делают прямое сравнение интеллектов методологически некорректным.

Глоссарий · 7 терминов▾

AGI: Artificial General Intelligence — искусственный общий интеллект, гипотетическая система, способная выполнять любые интеллектуальные задачи на уровне человека или выше.
Бенчмарк: Стандартизированный тест или набор задач для сравнения производительности разных моделей по единой шкале.
CHC (теория Кэттелла-Хорна-Кэрролла): Наиболее эмпирически подтверждённая психологическая модель интеллекта, делящая его на три уровня: общий интеллект, широкие и узкие способности.
ARC-AGI: Набор графических головоломок Франсуа Шолле, где модель должна вывести правило из примеров и применить его — считается одним из сложных тестов на абстрактное мышление.
MoE (Mixture of Experts): Архитектура нейросети, при которой разные входные данные обрабатываются разными подмножествами параметров — «экспертами», что позволяет масштабировать модель эффективнее.
Роевой интеллект: Подход, при котором интеллектуальная задача решается не одной большой моделью, а множеством взаимодействующих специализированных агентов.
LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстах и способная генерировать, переводить и анализировать текст.

В начале XX века немецкий конь Умный Ганс поражал публику способностью решать арифметические задачи, выстукивая ответ копытом. Позже выяснилось, что лошадь считывала едва заметные сигналы от людей вокруг — а не вычисляла. Этот эпизод до сих пор остаётся метафорой для дискуссии об измерении интеллекта: тест может фиксировать не то, что нам кажется.

Сегодня та же проблема стоит перед разработчиками AGI-бенчмарков. OpenAI, Anthropic и Google DeepMind официально заявили, что ожидают появления искусственного общего интеллекта — AGI, то есть системы человеческого уровня — в течение нескольких лет. Но прежде чем зафиксировать этот момент, нужно договориться, как его измерить. А здесь начинаются трудности.

Бенчмарк	Что проверяет	Статус
ARC-AGI-1 (2019)	Абстрактное мышление: графические головоломки	Модели научились решать через оптимизацию
ARC-AGI-2 (2025)	Усложнённые графические головоломки	Частично решается, результаты ограничены
ARC-AGI-3	Новейшая версия головоломок	Агенты пока не умеют решать
General-Bench	Текст, изображения, видео, аудио, 3D; рассуждение, этика, креативность	Ни одна модель не воспринимает все 5 модальностей
Тест Tong	Ценности, целеполагание, взаимодействие в виртуальной среде	В разработке, генерирует бесконечные задачи

Исследование, опубликованное в журнале Frontiers in Psychology в августе 2023 года, насчитало около 70 различных определений интеллекта в научной литературе. Конкурирующие теории описывают его принципиально по-разному. Модель общего фактора (g) предполагает единую когнитивную способность, которая проявляется во всём. Теория Кэттелла-Хорна-Кэрролла (CHC) — наиболее эмпирически подтверждённая — делит интеллект на три уровня: общий, широкие способности и узкие. Теория множественного интеллекта Гарднера вовсе отказывается от единого показателя в пользу набора независимых способностей. Триархическая теория Стернберга выделяет аналитический, креативный и практический компоненты. Ни одна из них не стала общепринятой.

LLM уже превосходят людей по многим узким когнитивным способностям из теории CHC, но это не означает полноценной замены.

LLM уже превосходят среднего человека по многим узким когнитивным способностям из нижнего стратума CHC: чтению, пониманию речи, работе с текстом. Но это не означает, что модель способна полностью заменить человека в интеллектуальной работе. Даже если все отдельные способности будут превзойдены, архитектурные различия между биологическим мозгом и трансформером делают прямое сравнение методологически сомнительным: у человека есть биологические эмоции, гормональные эффекты, а вопрос о сознании у LLM остаётся открытым.

Отдельная проблема — сами бенчмарки. Разработчики моделей оптимизируют системы под существующие тесты, что быстро обесценивает результаты. Это хорошо видно на примере ARC-AGI — набора графических головоломок Франсуа Шолле, где модель должна вывести правило из демонстраций и применить его. Версия ARC-AGI-1 (2019) была постепенно «взломана» оптимизацией; ARC-AGI-2 (2025) оказалась сложнее; только что представленный ARC-AGI-3 агенты пока не умеют решать вовсе.

Параллельно появляются принципиально иные подходы к тестированию. General-Bench использует пять входных модальностей — текст, изображения, видео, аудио и 3D — и проверяет распознавание, рассуждение, креативность и этическое суждение. Ни одна модель пока не способна одновременно воспринимать все пять. Тест Tong помещает «виртуального человека» в случайные ситуации — например, деньги на полу или плачущий ребёнок — и наблюдает за реакцией ИИ, проверяя соответствие человеческим ценностям и способность ставить собственные цели. Ещё один класс тестов — виртуальные миры вроде Eve Online, где ИИ запускают в автономное плавание, требующее долгосрочного планирования и взаимодействия.

На фоне этих дискуссий в отрасли набирает силу идея роевого интеллекта: вместо масштабирования одной большой модели — масштабирование через взаимодействие множества специализированных агентов. Большинство передовых моделей уже используют архитектуру MoE (Mixture of Experts), где разные входные данные направляются к разным подмножествам параметров. Многоагентные системы применяют ту же логику на уровне агентов, каждый из которых имеет собственные веса. Это меняет и саму постановку вопроса об измерении интеллекта: если интеллект масштабируется через взаимодействия, а не через индивидуальные способности, то тест одной модели теряет смысл.

Понятие «умный» исторически менялось: до появления энциклопедий и интернета умным считался человек, знающий много фактов; сейчас ценится скорость работы с информацией. Вероятно, критерии будут меняться и дальше — вместе с тем, что умеют делать сами модели.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

Продолжить по разделам

Почему бенчмарки AGI никогда не станут объективными

Кратко

Читать дальше

GFusion: диффузионная LLM от GigaChat

Сочинский филиал РУДН отменил дипломные работы для студентов-юристов

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ