LLM в поддержке клиентов: как уверенный тон ИИ стал главной проблемой

Подготовлено редакцией Malakhov AI

Habr AI·22 мая·3 минРоссияКод

SaaS-команда подключила языковую модель к первой линии поддержки в начале 2024 года — и несколько месяцев спустя была вынуждена откатить почти всю автоматизацию. Причина оказалась не в технических сбоях, а в том, что модель генерировала убедительные ответы на вопросы, которых не понимала.

Кратко

—ИИ-ассистент закрывал типовые тикеты без участия операторов, среднее время первого ответа упало в разы.
—Модель изобретала несуществующие лимиты API, ссылалась на удалённые настройки и придумывала технические причины сбоев.
—Пользователи верили ответам, потому что те были вежливыми, структурированными и звучали профессионально.
—Ключевая проблема: современные LLM почти никогда не говорят «я не знаю» — они достраивают контекст и отвечают уверенно.
—После аудита логов команда перевела LLM в режим помощника оператора: черновики ответов, поиск по документации, суммаризация тикетов.

Глоссарий · 6 терминов▾

LLM: Large Language Model — большая языковая модель, тип нейросети, обученной на текстах и способной генерировать связные ответы на естественном языке.
Галлюцинация: Термин для обозначения ситуации, когда языковая модель уверенно генерирует фактически неверную информацию, не предупреждая об этом.
Webhook: Механизм автоматической отправки HTTP-уведомлений от одного сервиса другому при наступлении определённого события.
Тикет: Обращение пользователя в службу поддержки, зафиксированное в системе учёта заявок.
Суммаризация: Автоматическое создание краткого изложения длинного текста с сохранением ключевых фактов.
SaaS: Software as a Service — модель распространения программного обеспечения, при которой продукт доступен через интернет по подписке, без установки на устройство пользователя.

В начале 2024 года небольшая SaaS-команда запустила ИИ-ассистента на первой линии поддержки. Логика была понятной: большинство тикетов — типовые вопросы про API-ключи, тарифы, настройки интеграций. Модель получила доступ к базе знаний, маршрутизатор отсеивал сложные обращения в пользу живых операторов, простые закрывались автоматически. Первые недели выглядели как успех: среднее время первого ответа упало в разы, нагрузка на команду снизилась, тикеты закрывались без участия людей.

Проблемы начали проявляться не сразу и не массово — скорее как странные единичные эпизоды. Один пользователь спросил про лимиты API на базовом тарифе. Модель ответила: «1000 запросов в минуту» — с форматированием, советом перейти на старший тариф при росте нагрузки и уверенным тоном. Лимитов по минутам у сервиса никогда не существовало. Пользователь поверил и ушёл. Ошибку обнаружили только когда он вернулся к живому оператору.

Постепенно таких случаев стало больше. Модель ссылалась на настройки, которых в интерфейсе уже несколько месяцев не было, обещала несуществующие функции, объясняла поведение системы, которого не существовало. Самый показательный эпизод произошёл ночью: клиент написал о сломавшейся интеграции после обновления. ИИ ответил, что причина — «временная деградация webhook worker в EU-регионе». У сервиса нет EU-региона, нет webhook worker, архитектура устроена иначе. Клиент написал в ответ: «Окей, спасибо, подожду фикса» — и закрыл тикет.

Модель изобретала несуществующие лимиты API, ссылалась на удалённые настройки и придумывала технические причины сбоев.

Когда команда начала целенаправленно просматривать логи, выяснилось, что подобных случаев значительно больше, чем казалось. Большинство пользователей не проверяли ответы — они просто верили им. Механизм доверия здесь понятен: быстрый, вежливый, структурированный ответ воспринимается как компетентный вне зависимости от содержания. Старые модели ошибались очевидно. Современные LLM ошибаются убедительно — и это принципиально другая проблема.

Галлюцинации языковых моделей — известное явление: модель генерирует правдоподобный, но фактически неверный текст, потому что обучена предсказывать следующий токен, а не проверять истинность утверждений. Проблема усугубляется тем, что модели плохо калиброваны в части неопределённости: вместо «я не знаю» они достраивают контекст из обучающих данных, смешивают актуальную документацию с устаревшей, интерпретируют неясные запросы — и всё это с одинаковой уверенностью. Чем мощнее модель, тем правдоподобнее звучат её ошибки.

В итоге команда откатила автономную автоматизацию. LLM остались в стеке, но в другой роли: помощник оператора, черновик ответа, поиск по документации, суммаризация длинных тикетов. Человек проверяет и отправляет. Это менее эффектно с точки зрения метрик, но устраняет главный риск — ситуацию, когда пользователь получает уверенный неверный ответ и уходит с ложным представлением о продукте.

Опыт команды воспроизводит более широкую дискуссию в отрасли о том, где проходит граница допустимой автономии LLM. Модели хорошо справляются с задачами, где ошибка заметна сразу или легко обратима. В клиентской поддержке ошибка может неделями оставаться невидимой — пользователь просто не возвращается. Именно поэтому схема «ИИ предлагает, человек утверждает» сейчас выглядит надёжнее, чем полная автономия, даже если первая линия кажется достаточно простой для делегирования.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Wildberries будет маркировать подозрительные на ИИ фотографии в отзывах

Продолжить по разделам

LLM в поддержке клиентов: как уверенный тон ИИ стал главной проблемой

Кратко

Читать дальше

GigaChat 3.5 Ultra: открыт код с гибридной архитектурой

Selectel и ИТМО создают СП для платформы мультиагентных ИИ-систем

Wildberries будет маркировать подозрительные на ИИ фотографии в отзывах