Исследователи из Китая представили бенчмарк DiscoBench, предназначенный для оценки способности ИИ-агентов поиска справляться с неоднозначными запросами. Реальные пользовательские вопросы часто содержат пропуски, противоречия или ошибки: одно описание может соответствовать нескольким объектам, один и тот же факт может относиться к разным версиям или временным периодам, а критерии оценки могут быть неопределёнными. В ходе эксперимента агенты могли выбирать одно из трёх действий: продолжить поиск, задать уточняющий вопрос пользователю или дать ответ. За каждый правильный шаг начислялись баллы, при этом фиксировалась не только сквозная точность, но и стоимость запросов.
Разработчики собрали 211 задач с 463 точками неоднозначности, охватывающих одиннадцать предметных областей: от видеоигр и спорта до науки и политики. Большинство запросов составлены на китайском языке, чтобы отразить типичные поисковые паттерны в китайском сегменте интернета. Для симуляции ответов пользователя на уточняющие вопросы применялась модель Gemini 3 Flash, а все поисковые запросы выполнялись через API поисковой системы Tavily. Процесс построения датасета состоял из двух фаз: сначала генерировались чистые многошаговые вопросы, затем в них внедрялись целенаправленные неоднозначности и отличительные подсказки.
| Модель | Сквозная точность (%) |
|---|---|
| Doubao Seed 2.0 Pro | 43.1 |
| Gemini 3.1 Pro Preview | 40.8 |
| Claude Opus 4.7 | 39.8 |
| MiniMax M2.7 | 16.1 |
| Qwen3.6 Max | 12.3 |
В тестировании приняли участие одиннадцать моделей, выпущенных за последние полгода: Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, Doubao Seed 2.0 Pro, DeepSeek V4 Pro, Kimi K2.6, GLM 5.1, Qwen3.6 Max, MiniMax M2.7, MiMo v2.5 Pro и Hunyuan 3.0 Preview. Без дополнительных указаний на возможную неоднозначность лучший результат показала Doubao Seed 2.0 Pro — 43,1% сквозной точности. Gemini 3.1 Pro и Claude Opus 4.7 достигли 40,8% и 39,8% соответственно. Модели MiniMax M2.7 и Qwen3.6 Max справились лишь с 16,1% и 12,3% задач. Примечательно, что частота поисковых вызовов не коррелирует с точностью: Claude Opus 4.7 ищет чаще других, но уступает лидерам.
Лучший результат сквозной точности показала модель Doubao Seed 2.0 Pro — 43,1%.

Отдельно исследователи изучили влияние явного предупреждения в системном промпте. В режиме «с подсказкой» моделям сообщалось, что запрос может быть неоднозначным, и рекомендовалось задавать уточняющие вопросы. В среднем по десяти моделям сквозная точность выросла с 28,6% до 33,7%, а метрика обнаружения неоднозначности (Detection F1) — с 45,3% до 64,9%. Однако улучшение обнаружения не привело к пропорциональному росту итогового успеха. Для Claude Opus 4.7 точность даже немного снизилась. Авторы заключают, что распознавание неоднозначности и формулировка качественного уточняющего вопроса — два разных навыка.
Поведенческий анализ показал, что наибольшего успеха достигают агенты, которые сначала выполняют поиск, а затем задают уточняющий вопрос (стратегия SearchThenAsk) — 93,4% успеха. Стратегия прямого предположения без уточнения даёт лишь 56,5%, а многократный поиск с последующим угадыванием (SearchHeavyGuess) — 51,9%. Авторы отмечают, что повторные поиски часто свидетельствуют о том, что модель уже заметила неоднозначность, но так и не превратила её в диалог с пользователем. Таким образом, ключевая проблема современных ИИ-агентов поиска кроется не в поисковых способностях, а в умении вовремя задать правильный вопрос.



