Дизайн интерфейса ИИ-чата влияет на то, как пользователи находят ошибки модели

Подготовлено редакцией Malakhov AI

Habr AI·5 дней назад·3 минРоссияКод

Пять научных исследований с выборками от 50 до 372 участников показывают: расположение источников, момент показа подсказки и формат отображения рассуждений меняют точность решений пользователей в разы. При ошибочной подсказке ИИ, показанной сразу, люди давали верный ответ лишь в 3% случаев — против 18% у тех, кто работал без ИИ.

Кратко

—372 участника писали эссе с Perplexity: боковая панель источников улучшала критическое мышление, сноски в тексте — не прерывали поток.
—50 студентов-медиков лучше реагировали на вероятность в формате «72 из 100», чем на «уверен на 90%» — разница в изменении ответов составила 6%.
—Когда ИИ ошибался, пользователи с мгновенной подсказкой давали 3% верных ответов, с отложенной на 30 секунд — 9%, без ИИ — 18%.
—Граф рассуждений позволял находить ошибки модели в 86% случаев против 74% при обычном тексте по шагам.
—Показ промежуточных шагов проверки фактов снижал критическое мышление: пользователи охотнее соглашались с ИИ и хуже удерживали собственное суждение.

Глоссарий · 4 термина▾

Система 1 / Система 2: Термины из книги Даниэля Канемана: система 1 — быстрое интуитивное мышление, система 2 — медленное аналитическое; готовый ответ ИИ активирует систему 1 и отключает критический анализ.
Граф рассуждений: Визуальное представление шагов решения задачи в виде узлов и связей между ними, позволяющее отследить логику модели нагляднее, чем линейный текст.
Когнитивная нагрузка: Объём умственных усилий, требуемых для выполнения задачи; при высокой нагрузке пользователи склонны доверять подсказкам ИИ, не проверяя их.
Натуральные частоты: Способ выражения вероятности через конкретные числа («72 из 100»), который воспринимается точнее, чем проценты или словесные оценки уверенности.

Пять экспериментов, проведённых независимыми командами, проверяли одну и ту же гипотезу: интерфейс ИИ-чата не нейтрален. То, где расположены ссылки на источники, когда появляется подсказка и в каком виде модель показывает ход своих рассуждений — всё это меняет, насколько точно пользователь принимает решения и замечает ли он ошибку.

Первое исследование с 372 участниками тестировало четыре варианта отображения источников в Perplexity: выпадающий список над ответом, сноски с всплывающими подсказками прямо в тексте, ссылки в футере и постоянная боковая панель. Удовлетворённость интерфейсом оказалась одинаковой во всех группах, но участники с боковой панелью лучше опирались на данные, различали сильные и слабые источники и реже подменяли понятия. Сноски в тексте помогали не прерывать поток написания, а ссылки в футере не давали никакого эффекта. Актуальная версия Perplexity, судя по всему, учла эти выводы: в ней есть и сноски, и боковая панель, и отдельная вкладка со всеми источниками.

Формат отображения рассуждений	Точность нахождения ошибок
Обычный текст по шагам	74%
Текст с подсветкой чисел	не указана отдельно
Структура в виде кода	не указана отдельно
Граф решения	86%

Второе исследование касалось формата выражения неуверенности модели. 50 студентов медицинских специальностей распознавали рак кожи на фотографиях. Когда ИИ писал «я уверен на 90%», это никак не влияло на частоту пересмотра ответов — ни при высокой, ни при низкой уверенности. Формат «из 100 похожих случаев модель верно распознаёт 72» давал небольшой, но измеримый эффект: разброс в изменении ответов составил 6 процентных пунктов. Вывод авторов прямой: стандартные предупреждения вида «ИИ может ошибаться», которые стоят во всех популярных моделях, почти бесполезны. Работает конкретный пример с числами.

50 студентов-медиков лучше реагировали на вероятность в формате «72 из 100», чем на «уверен на 90%» — разница в изменении ответов составила 6%.

Третий эксперимент с 200 участниками тестировал момент появления подсказки при выборе продуктов питания по фотографии тарелки. В 75% случаев ИИ был прав, и тогда все группы с подсказкой отвечали вдвое точнее группы без ИИ. Но в 25% случаев модель ошибалась — и здесь разница оказалась критической. Пользователи, видевшие подсказку сразу, давали верный ответ лишь в 3% случаев. Те, кому подсказка появлялась через 30 секунд или только после собственного решения, — в 9%. Контрольная группа без ИИ — в 18%. Авторы связывают это с переходом на «систему 1» по Канеману: когда готовый ответ виден сразу, мозг перестаёт анализировать самостоятельно.

Четвёртое исследование проверяло, в каком формате лучше показывать ход рассуждений модели. 125 участников искали ошибку в решении математических задач уровня пятого класса — в 9 из 10 задач ошибка была намеренно заложена. Тестировались четыре формата: обычный текст по шагам, текст с подсветкой чисел, структура в виде кода и граф решения. Граф позволял находить ошибки в 86% случаев против 74% при обычном тексте. Дополнительно помогала боковая панель с исходным запросом и финальным ответом — когда контекст постоянно виден, следить за рассуждением проще.

Пятый эксперимент с 233 участниками дал неожиданный результат. Людям нужно было проверять факты в предложениях по Википедии. Группа, которой ИИ показывал разбивку на три шага и промежуточные ответы по каждому, справлялась хуже всех: пользователи чаще соглашались с моделью и хуже удерживали собственное суждение при её ошибках. Контрольная группа без ИИ обогнала самый сложный интерфейс почти на 10 процентных пунктов. Авторы объясняют это когнитивной усталостью: когда число промежуточных решений утраивается, мозг начинает экономить и делегирует суждение модели.

Общая картина из пяти исследований складывается в несколько практических правил. Для критически важных сервисов — медицина, финансы, юридические решения — подсказку лучше скрывать по умолчанию и просить пользователя сформулировать собственный ответ до её появления. Источники в таких случаях стоит выносить в боковую панель. Для развлекательных или информационных продуктов достаточно структурированного отображения рассуждений — граф или разбивка по шагам повышают доверие, даже если пользователь не читает их внимательно. Показывать неуверенность модели в процентах почти бессмысленно — нужен конкретный пример с числами в натуральном выражении.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам