Бенчмарк BrowseComp от OpenAI считается одним из сложнейших тестов для ИИ-агентов: он требует многошагового поиска и синтеза информации из разных источников. Frontier-модели — GPT-5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek-V4-Pro, Kimi-K2.6 — стабильно улучшают на нём результаты. Исследователи из Харбинского политехнического университета и китайской платформы Xiaohongshu решили проверить, что именно стоит за этим ростом.
Они провели два ключевых эксперимента. В первом у моделей полностью отключили доступ к интернету. Результат оказался неожиданным: MiniMax M2.5 решил 44,5% задач BrowseComp из памяти, Kimi-K2.6 на китайской версии BrowseComp-ZH — 62%. Это означает, что значительная часть «поискового» бенчмарка фактически проверяет не умение искать, а объём параметрических знаний модели. Авторы назвали это явление intrinsic knowledge dependence (IKD) — зависимость от внутренних знаний, накопленных при обучении.
| Модель | BrowseComp без инструментов | BrowseComp с инструментами | LiveBrowseComp без инструментов |
|---|---|---|---|
| MiniMax M2.5 | 44,5% | снижение до 8% при пустом индексе | <2% |
| Kimi-K2.6 | 25,5% (62% на BrowseComp-ZH) | снижение до 2,3% при пустом индексе | <2% |
| DeepSeek v3.2 | низкий (хвост рейтинга) | — | лидер среди протестированных |
| GLM 5.1 | лидер open-source | — | середина рейтинга |
Второй эксперимент оказался ещё более показательным. Исследователи оставили поисковый интерфейс, но убрали из индекса все документы, которые могли бы подтвердить правильный ответ. Все протестированные модели показали результат хуже, чем вообще без инструментов. MiniMax M2.5 упал с 44,5% до 8%, Kimi-K2.6 — с 25,5% до 2,3%. Механизм понятен: когда поиск не возвращает подтверждения, агент начинает «охотиться» за собственными гипотезами вместо того, чтобы искать новые факты. Анализ поисковых цепочек показал, что более половины запросов генерируются из рассуждений самой модели, а не из найденных источников. Даже когда релевантные данные появляются в результатах, агенты используют их менее чем в трети случаев.
При удалении подтверждающих документов из поискового индекса все модели показали результат хуже, чем без инструментов.

Чтобы измерить реальные поисковые способности, авторы создали LiveBrowseComp — бенчмарк из 335 вопросов, написанных людьми. Каждый вопрос опирается минимум на один факт из последних 90 дней до создания и не может быть решён без актуальной информации. Источники данных — базы фильмов, игровые каталоги, реестры уязвимостей безопасности, каталоги землетрясений. Намеренно исключены резонансные события, которые могли попасть в обучающие данные. Каждый вопрос проходит экспертную проверку на актуальность, сложность и однозначность ответа.
На LiveBrowseComp без инструментов все модели упали ниже 2% точности. С инструментами результаты оказались на 25–40 процентных пунктов ниже, чем на BrowseComp. При этом люди-тестировщики решают задачи обоих бенчмарков примерно с одинаковой скоростью и точностью — значит, дело не в сложности вопросов, а именно в потере «памятного» ярлыка. Рейтинги перевернулись: GLM 5.1, лидировавший среди open-source моделей на BrowseComp, скатился в середину. DeepSeek v3.2, замыкавший список, поднялся на первое место.
Косвенно это подтверждается и паттерном шагов: на BrowseComp агенты часто решают задачи за минимальное число итераций — признак быстрого «вспоминания». На LiveBrowseComp количество шагов резко возрастает, что соответствует настоящему поиску. Авторы призывают сделать динамические, временно ограниченные бенчмарки стандартом оценки агентов и пересмотреть обучающие сигналы в пользу поощрения работы с доказательствами, а не угадывания с последующей верификацией. Схожие проблемы фиксируют и другие группы: бенчмарк Пекинского университета обнаружил, что модели нередко дают правильный ответ при анализе документов, но ссылаются на неверный источник — так называемые «галлюцинации атрибуции».



