ИИ-агенты поиска чаще подтверждают собственные знания, чем исследуют веб

The Decoder·3 часа назад·3 минИсследованияИндустрия

Исследователи из Харбинского политехнического университета и Xiaohongshu выяснили: модели GPT-5.4, Gemini 3.1 Pro, Claude Sonnet 4.6 и другие показывают высокие результаты на бенчмарке BrowseComp не потому, что умеют искать, а потому что уже знают ответы из обучающих данных. Когда вопросы выходят за пределы параметрической памяти, точность падает на 25–40 процентных пунктов.

Кратко

—MiniMax M2.5 решает 44,5% задач BrowseComp вообще без доступа к интернету — из памяти.
—При удалении подтверждающих документов из поискового индекса все модели показали результат хуже, чем без инструментов.
—Kimi-K2.6 упал с 25,5% до 2,3%, когда поиск перестал возвращать нужные источники.
—Новый бенчмарк LiveBrowseComp из 335 вопросов требует фактов не старше 90 дней — без памяти модели не набирают и 2%.
—DeepSeek v3.2 был в хвосте BrowseComp, но вышел на первое место среди протестированных моделей на LiveBrowseComp.

Глоссарий · 6 терминов▾

BrowseComp: Бенчмарк для оценки ИИ-агентов, требующий многошагового поиска в интернете и синтеза информации из нескольких источников для ответа на сложные вопросы.
Intrinsic knowledge dependence (IKD): Зависимость модели от знаний, усвоенных при обучении, вместо реального поиска новой информации — термин, введённый авторами исследования.
LiveBrowseComp: Новый бенчмарк с вопросами, требующими фактов не старше 90 дней, специально разработанный для исключения влияния параметрической памяти модели.
Параметрическая память: Знания, закодированные в весах нейронной сети в процессе обучения на больших корпусах текста — в отличие от информации, найденной в реальном времени.
Галлюцинация атрибуции: Ошибка модели, при которой правильный ответ сопровождается ссылкой на несуществующий или нерелевантный источник.
Frontier-модели: Наиболее мощные коммерческие языковые модели текущего поколения, находящиеся на переднем крае возможностей отрасли.

Бенчмарк BrowseComp от OpenAI считается одним из сложнейших тестов для ИИ-агентов: он требует многошагового поиска и синтеза информации из разных источников. Frontier-модели — GPT-5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek-V4-Pro, Kimi-K2.6 — стабильно улучшают на нём результаты. Исследователи из Харбинского политехнического университета и китайской платформы Xiaohongshu решили проверить, что именно стоит за этим ростом.

Они провели два ключевых эксперимента. В первом у моделей полностью отключили доступ к интернету. Результат оказался неожиданным: MiniMax M2.5 решил 44,5% задач BrowseComp из памяти, Kimi-K2.6 на китайской версии BrowseComp-ZH — 62%. Это означает, что значительная часть «поискового» бенчмарка фактически проверяет не умение искать, а объём параметрических знаний модели. Авторы назвали это явление intrinsic knowledge dependence (IKD) — зависимость от внутренних знаний, накопленных при обучении.

Модель	BrowseComp без инструментов	BrowseComp с инструментами	LiveBrowseComp без инструментов
MiniMax M2.5	44,5%	снижение до 8% при пустом индексе	<2%
Kimi-K2.6	25,5% (62% на BrowseComp-ZH)	снижение до 2,3% при пустом индексе	<2%
DeepSeek v3.2	низкий (хвост рейтинга)	—	лидер среди протестированных
GLM 5.1	лидер open-source	—	середина рейтинга

Второй эксперимент оказался ещё более показательным. Исследователи оставили поисковый интерфейс, но убрали из индекса все документы, которые могли бы подтвердить правильный ответ. Все протестированные модели показали результат хуже, чем вообще без инструментов. MiniMax M2.5 упал с 44,5% до 8%, Kimi-K2.6 — с 25,5% до 2,3%. Механизм понятен: когда поиск не возвращает подтверждения, агент начинает «охотиться» за собственными гипотезами вместо того, чтобы искать новые факты. Анализ поисковых цепочек показал, что более половины запросов генерируются из рассуждений самой модели, а не из найденных источников. Даже когда релевантные данные появляются в результатах, агенты используют их менее чем в трети случаев.

При удалении подтверждающих документов из поискового индекса все модели показали результат хуже, чем без инструментов.

With static benchmarks, the needed knowledge migrates into parameter memory over model generations, making tasks easier over time. LiveBrowseComp counters this with time-bound questions. | Image: Fan et al. · Источник: The Decoder

Чтобы измерить реальные поисковые способности, авторы создали LiveBrowseComp — бенчмарк из 335 вопросов, написанных людьми. Каждый вопрос опирается минимум на один факт из последних 90 дней до создания и не может быть решён без актуальной информации. Источники данных — базы фильмов, игровые каталоги, реестры уязвимостей безопасности, каталоги землетрясений. Намеренно исключены резонансные события, которые могли попасть в обучающие данные. Каждый вопрос проходит экспертную проверку на актуальность, сложность и однозначность ответа.

На LiveBrowseComp без инструментов все модели упали ниже 2% точности. С инструментами результаты оказались на 25–40 процентных пунктов ниже, чем на BrowseComp. При этом люди-тестировщики решают задачи обоих бенчмарков примерно с одинаковой скоростью и точностью — значит, дело не в сложности вопросов, а именно в потере «памятного» ярлыка. Рейтинги перевернулись: GLM 5.1, лидировавший среди open-source моделей на BrowseComp, скатился в середину. DeepSeek v3.2, замыкавший список, поднялся на первое место.

Косвенно это подтверждается и паттерном шагов: на BrowseComp агенты часто решают задачи за минимальное число итераций — признак быстрого «вспоминания». На LiveBrowseComp количество шагов резко возрастает, что соответствует настоящему поиску. Авторы призывают сделать динамические, временно ограниченные бенчмарки стандартом оценки агентов и пересмотреть обучающие сигналы в пользу поощрения работы с доказательствами, а не угадывания с последующей верификацией. Схожие проблемы фиксируют и другие группы: бенчмарк Пекинского университета обнаружил, что модели нередко дают правильный ответ при анализе документов, но ссылаются на неверный источник — так называемые «галлюцинации атрибуции».

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

SpaceX выходит на IPO с оценкой в $1 трлн и уклоном в ИИ

Продолжить по разделам

ИИ-агенты поиска чаще подтверждают собственные знания, чем исследуют веб

Кратко

Читать также

Microsoft и Nvidia готовят ПК с локальными ИИ-агентами вместо Copilot

GitHub Copilot переходит на токенную оплату

SpaceX выходит на IPO с оценкой в $1 трлн и уклоном в ИИ