Пять экспериментов, проведённых независимыми командами, проверяли одну и ту же гипотезу: интерфейс ИИ-чата не нейтрален. То, где расположены ссылки на источники, когда появляется подсказка и в каком виде модель показывает ход своих рассуждений — всё это меняет, насколько точно пользователь принимает решения и замечает ли он ошибку.

Первое исследование с 372 участниками тестировало четыре варианта отображения источников в Perplexity: выпадающий список над ответом, сноски с всплывающими подсказками прямо в тексте, ссылки в футере и постоянная боковая панель. Удовлетворённость интерфейсом оказалась одинаковой во всех группах, но участники с боковой панелью лучше опирались на данные, различали сильные и слабые источники и реже подменяли понятия. Сноски в тексте помогали не прерывать поток написания, а ссылки в футере не давали никакого эффекта. Актуальная версия Perplexity, судя по всему, учла эти выводы: в ней есть и сноски, и боковая панель, и отдельная вкладка со всеми источниками.

Формат отображения рассужденийТочность нахождения ошибок
Обычный текст по шагам74%
Текст с подсветкой чиселне указана отдельно
Структура в виде кодане указана отдельно
Граф решения86%

Второе исследование касалось формата выражения неуверенности модели. 50 студентов медицинских специальностей распознавали рак кожи на фотографиях. Когда ИИ писал «я уверен на 90%», это никак не влияло на частоту пересмотра ответов — ни при высокой, ни при низкой уверенности. Формат «из 100 похожих случаев модель верно распознаёт 72» давал небольшой, но измеримый эффект: разброс в изменении ответов составил 6 процентных пунктов. Вывод авторов прямой: стандартные предупреждения вида «ИИ может ошибаться», которые стоят во всех популярных моделях, почти бесполезны. Работает конкретный пример с числами.

50 студентов-медиков лучше реагировали на вероятность в формате «72 из 100», чем на «уверен на 90%» — разница в изменении ответов составила 6%.

Третий эксперимент с 200 участниками тестировал момент появления подсказки при выборе продуктов питания по фотографии тарелки. В 75% случаев ИИ был прав, и тогда все группы с подсказкой отвечали вдвое точнее группы без ИИ. Но в 25% случаев модель ошибалась — и здесь разница оказалась критической. Пользователи, видевшие подсказку сразу, давали верный ответ лишь в 3% случаев. Те, кому подсказка появлялась через 30 секунд или только после собственного решения, — в 9%. Контрольная группа без ИИ — в 18%. Авторы связывают это с переходом на «систему 1» по Канеману: когда готовый ответ виден сразу, мозг перестаёт анализировать самостоятельно.

Четвёртое исследование проверяло, в каком формате лучше показывать ход рассуждений модели. 125 участников искали ошибку в решении математических задач уровня пятого класса — в 9 из 10 задач ошибка была намеренно заложена. Тестировались четыре формата: обычный текст по шагам, текст с подсветкой чисел, структура в виде кода и граф решения. Граф позволял находить ошибки в 86% случаев против 74% при обычном тексте. Дополнительно помогала боковая панель с исходным запросом и финальным ответом — когда контекст постоянно виден, следить за рассуждением проще.

Пятый эксперимент с 233 участниками дал неожиданный результат. Людям нужно было проверять факты в предложениях по Википедии. Группа, которой ИИ показывал разбивку на три шага и промежуточные ответы по каждому, справлялась хуже всех: пользователи чаще соглашались с моделью и хуже удерживали собственное суждение при её ошибках. Контрольная группа без ИИ обогнала самый сложный интерфейс почти на 10 процентных пунктов. Авторы объясняют это когнитивной усталостью: когда число промежуточных решений утраивается, мозг начинает экономить и делегирует суждение модели.

Общая картина из пяти исследований складывается в несколько практических правил. Для критически важных сервисов — медицина, финансы, юридические решения — подсказку лучше скрывать по умолчанию и просить пользователя сформулировать собственный ответ до её появления. Источники в таких случаях стоит выносить в боковую панель. Для развлекательных или информационных продуктов достаточно структурированного отображения рассуждений — граф или разбивка по шагам повышают доверие, даже если пользователь не читает их внимательно. Показывать неуверенность модели в процентах почти бессмысленно — нужен конкретный пример с числами в натуральном выражении.