ИИ-агенты поиска терпят неудачу из-за неоднозначных запросов

Подготовлено редакцией Malakhov AI

The Decoder·4 часа назад·3 минИсследованияИндустрия

Бенчмарк DiscoBench с 463 точками неоднозначности в 11 доменах показал, что даже лучшие ИИ-агенты поиска решают задачу корректно не более чем в 43% случаев. Основная причина — неспособность распознать двусмысленность и задать уточняющий вопрос.

Кратко

—DiscoBench содержит 211 заданий с неоднозначностями в видеоиграх, спорте, музыке, политике и других областях.
—Лучший результат сквозной точности показала модель Doubao Seed 2.0 Pro — 43,1%.
—Явная инструкция в промпте повышает обнаружение неоднозначности с 45,3% до 64,9% F1, но почти не улучшает итоговый ответ.
—Агенты, которые сначала ищут, а затем задают уточняющий вопрос, достигают успеха в 93,4% случаев.
—Многократный поиск без уточнения даёт худший результат (51,9%), чем прямое предположение (56,5%).

Глоссарий · 5 терминов▾

сквозная точность: Доля задач, в которых агент дал полностью правильный ответ от начала до конца.
Detection F1: Метрика, измеряющая качество обнаружения неоднозначных моментов в запросе.
системный промпт: Начальная инструкция, задающая модели правила поведения и контекст.
LLM: Large Language Model — большая языковая модель, способная генерировать текст и отвечать на вопросы.
бенчмарк: Набор тестовых заданий для оценки производительности систем ИИ.

Исследователи из Китая представили бенчмарк DiscoBench, предназначенный для оценки способности ИИ-агентов поиска справляться с неоднозначными запросами. Реальные пользовательские вопросы часто содержат пропуски, противоречия или ошибки: одно описание может соответствовать нескольким объектам, один и тот же факт может относиться к разным версиям или временным периодам, а критерии оценки могут быть неопределёнными. В ходе эксперимента агенты могли выбирать одно из трёх действий: продолжить поиск, задать уточняющий вопрос пользователю или дать ответ. За каждый правильный шаг начислялись баллы, при этом фиксировалась не только сквозная точность, но и стоимость запросов.

Разработчики собрали 211 задач с 463 точками неоднозначности, охватывающих одиннадцать предметных областей: от видеоигр и спорта до науки и политики. Большинство запросов составлены на китайском языке, чтобы отразить типичные поисковые паттерны в китайском сегменте интернета. Для симуляции ответов пользователя на уточняющие вопросы применялась модель Gemini 3 Flash, а все поисковые запросы выполнялись через API поисковой системы Tavily. Процесс построения датасета состоял из двух фаз: сначала генерировались чистые многошаговые вопросы, затем в них внедрялись целенаправленные неоднозначности и отличительные подсказки.

Модель	Сквозная точность (%)
Doubao Seed 2.0 Pro	43.1
Gemini 3.1 Pro Preview	40.8
Claude Opus 4.7	39.8
MiniMax M2.7	16.1
Qwen3.6 Max	12.3

В тестировании приняли участие одиннадцать моделей, выпущенных за последние полгода: Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, Doubao Seed 2.0 Pro, DeepSeek V4 Pro, Kimi K2.6, GLM 5.1, Qwen3.6 Max, MiniMax M2.7, MiMo v2.5 Pro и Hunyuan 3.0 Preview. Без дополнительных указаний на возможную неоднозначность лучший результат показала Doubao Seed 2.0 Pro — 43,1% сквозной точности. Gemini 3.1 Pro и Claude Opus 4.7 достигли 40,8% и 39,8% соответственно. Модели MiniMax M2.7 и Qwen3.6 Max справились лишь с 16,1% и 12,3% задач. Примечательно, что частота поисковых вызовов не коррелирует с точностью: Claude Opus 4.7 ищет чаще других, но уступает лидерам.

Лучший результат сквозной точности показала модель Doubao Seed 2.0 Pro — 43,1%.

When a search agent guesses instead of clarifying ambiguities, the error cascades through the entire reasoning chain and produces a wrong final answer. | Image: Cheng et al. · Источник: The Decoder

Отдельно исследователи изучили влияние явного предупреждения в системном промпте. В режиме «с подсказкой» моделям сообщалось, что запрос может быть неоднозначным, и рекомендовалось задавать уточняющие вопросы. В среднем по десяти моделям сквозная точность выросла с 28,6% до 33,7%, а метрика обнаружения неоднозначности (Detection F1) — с 45,3% до 64,9%. Однако улучшение обнаружения не привело к пропорциональному росту итогового успеха. Для Claude Opus 4.7 точность даже немного снизилась. Авторы заключают, что распознавание неоднозначности и формулировка качественного уточняющего вопроса — два разных навыка.

Поведенческий анализ показал, что наибольшего успеха достигают агенты, которые сначала выполняют поиск, а затем задают уточняющий вопрос (стратегия SearchThenAsk) — 93,4% успеха. Стратегия прямого предположения без уточнения даёт лишь 56,5%, а многократный поиск с последующим угадыванием (SearchHeavyGuess) — 51,9%. Авторы отмечают, что повторные поиски часто свидетельствуют о том, что модель уже заметила неоднозначность, но так и не превратила её в диалог с пользователем. Таким образом, ключевая проблема современных ИИ-агентов поиска кроется не в поисковых способностях, а в умении вовремя задать правильный вопрос.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%

Продолжить по разделам

ИИ-агенты поиска терпят неудачу из-за неоднозначных запросов

Кратко

Читать дальше

Seedance от Bytedance: Голливуд хочет его запретить, но студии используют

Google DeepMind и A24 заключили партнёрство в области ИИ для киноиндустрии

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%