Обучение разговорных ИИ-агентов требует постоянной обратной связи от пользователей, но живое тестирование с участием людей дорого и плохо масштабируется. Индустрия давно ищет замену — LLM-симуляторы, которые разыгрывают роль пользователя. Проблема в том, что такие симуляторы ведут себя неправдоподобно: они слишком терпеливы, слишком многословны и демонстрируют энциклопедические знания о предметной области, которых у обычного покупателя нет. Google Research решила не просто описать эту проблему, а измерить её.
Для этого команда собрала датасет ConvApparel — более 4 000 многоходовых диалогов между людьми и ИИ-рекомендательной системой в теме покупки одежды, суммарно почти 15 000 реплик. Ключевая особенность сбора данных — двойной агент. Участники не знали, что их запросы случайно распределялись между двумя системами: «хорошим» агентом, настроенным быть полезным и эффективным, и «плохим», намеренно запутанным — он слегка искажал ключевые слова и использовал намеренно деградированный поиск. Такая схема позволила зафиксировать весь диапазон пользовательских реакций: от удовлетворения до выраженного раздражения. После каждой реплики участники ретроспективно оценивали своё состояние — удовлетворённость, фрустрацию, вероятность покупки.
На основе этих данных Google предложила трёхуровневую систему оценки симуляторов. Первый уровень — статистическое соответствие на уровне популяции: длина диалогов, количество слов за ход, типы речевых актов. Второй — оценка «человекоподобности»: автоматический дискриминатор, обученный на смеси человеческих и синтетических диалогов, выдаёт вероятность того, что разговор написан человеком. Третий уровень — контрфактическая валидация: симулятор обучают только на диалогах с «хорошим» агентом, а затем проверяют, как он реагирует на «плохого». Реалистичный симулятор должен демонстрировать рост фрустрации, аналогичный тому, что показывали живые участники.
Участников случайно направляли к «хорошему» или намеренно плохому ИИ-агенту — чтобы зафиксировать весь спектр реакций.
В экспериментах сравнивались три варианта симулятора на базе семейства Gemini: prompt-based (только инструкции без обучения), ICL — с примерами из датасета, подобранными через retrieval-augmented generation, и SFT — модель Gemini 2.5 Flash, дообученная непосредственно на транскриптах ConvApparel. Каждый симулятор генерировал по 600 диалогов — 300 с «хорошим» и 300 с «плохим» агентом. Результаты оказались показательными: обученный дискриминатор уверенно распознавал почти все синтетические диалоги как ненастоящие. Разрыв в реализме не просто существует — он хорошо поддаётся измерению.
Контекст важен для понимания масштаба задачи. Conversational Recommender Systems — класс систем, где ИИ выступает не просто поисковиком, а полноценным советником, способным уточнять предпочтения и адаптировать рекомендации по ходу разговора. Именно такие системы сложнее всего тестировать без живых пользователей: сценарии слишком разнообразны, а поведение людей в длинных диалогах непредсказуемо. Если симулятор переобучается на данных от одного агента и не умеет адаптироваться к новому, он бесполезен для тестирования следующего поколения систем. ConvApparel предлагает методологию, которая позволяет проверить именно эту способность к обобщению.


