Исследователи из Китая представили бенчмарк DiscoBench, предназначенный для оценки способности ИИ-агентов поиска справляться с неоднозначными запросами. Реальные пользовательские вопросы часто содержат пропуски, противоречия или ошибки: одно описание может соответствовать нескольким объектам, один и тот же факт может относиться к разным версиям или временным периодам, а критерии оценки могут быть неопределёнными. В ходе эксперимента агенты могли выбирать одно из трёх действий: продолжить поиск, задать уточняющий вопрос пользователю или дать ответ. За каждый правильный шаг начислялись баллы, при этом фиксировалась не только сквозная точность, но и стоимость запросов.

Разработчики собрали 211 задач с 463 точками неоднозначности, охватывающих одиннадцать предметных областей: от видеоигр и спорта до науки и политики. Большинство запросов составлены на китайском языке, чтобы отразить типичные поисковые паттерны в китайском сегменте интернета. Для симуляции ответов пользователя на уточняющие вопросы применялась модель Gemini 3 Flash, а все поисковые запросы выполнялись через API поисковой системы Tavily. Процесс построения датасета состоял из двух фаз: сначала генерировались чистые многошаговые вопросы, затем в них внедрялись целенаправленные неоднозначности и отличительные подсказки.

МодельСквозная точность (%)
Doubao Seed 2.0 Pro43.1
Gemini 3.1 Pro Preview40.8
Claude Opus 4.739.8
MiniMax M2.716.1
Qwen3.6 Max12.3

В тестировании приняли участие одиннадцать моделей, выпущенных за последние полгода: Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, Doubao Seed 2.0 Pro, DeepSeek V4 Pro, Kimi K2.6, GLM 5.1, Qwen3.6 Max, MiniMax M2.7, MiMo v2.5 Pro и Hunyuan 3.0 Preview. Без дополнительных указаний на возможную неоднозначность лучший результат показала Doubao Seed 2.0 Pro — 43,1% сквозной точности. Gemini 3.1 Pro и Claude Opus 4.7 достигли 40,8% и 39,8% соответственно. Модели MiniMax M2.7 и Qwen3.6 Max справились лишь с 16,1% и 12,3% задач. Примечательно, что частота поисковых вызовов не коррелирует с точностью: Claude Opus 4.7 ищет чаще других, но уступает лидерам.

Лучший результат сквозной точности показала модель Doubao Seed 2.0 Pro — 43,1%.

When a search agent guesses instead of clarifying ambiguities, the error cascades through the entire reasoning chain and produces a wrong final answer. | Image: Cheng et al.
When a search agent guesses instead of clarifying ambiguities, the error cascades through the entire reasoning chain and produces a wrong final answer. | Image: Cheng et al. · Источник: The Decoder

Отдельно исследователи изучили влияние явного предупреждения в системном промпте. В режиме «с подсказкой» моделям сообщалось, что запрос может быть неоднозначным, и рекомендовалось задавать уточняющие вопросы. В среднем по десяти моделям сквозная точность выросла с 28,6% до 33,7%, а метрика обнаружения неоднозначности (Detection F1) — с 45,3% до 64,9%. Однако улучшение обнаружения не привело к пропорциональному росту итогового успеха. Для Claude Opus 4.7 точность даже немного снизилась. Авторы заключают, что распознавание неоднозначности и формулировка качественного уточняющего вопроса — два разных навыка.

Поведенческий анализ показал, что наибольшего успеха достигают агенты, которые сначала выполняют поиск, а затем задают уточняющий вопрос (стратегия SearchThenAsk) — 93,4% успеха. Стратегия прямого предположения без уточнения даёт лишь 56,5%, а многократный поиск с последующим угадыванием (SearchHeavyGuess) — 51,9%. Авторы отмечают, что повторные поиски часто свидетельствуют о том, что модель уже заметила неоднозначность, но так и не превратила её в диалог с пользователем. Таким образом, ключевая проблема современных ИИ-агентов поиска кроется не в поисковых способностях, а в умении вовремя задать правильный вопрос.