Голосовой ИИ-агент врал клиентам и путал звонящих: три месяца багов и их исправление

Подготовлено редакцией Malakhov AI

Habr AI·8 часов назад·2 минРоссияКод

За три месяца эксплуатации голосового ИИ-ресепшиониста AIRA в барбершопе «Здоровый Лось» модель соврала клиенту о переводе на несуществующего сотрудника, принимала всех звонящих за одного человека и выдавала синтезированный голос за клонированный. Все проблемы решили не промптами, а изменением архитектуры кода.

Кратко

—Голосовой ИИ-агент AIRA за 3 месяца допустил три критических сбоя: ложь о переводе, путаницу звонящих и подделку клонирования голоса.
—Проблемы устранялись доработкой кода: добавлением стадии no_transfer, внедрением speaker embedding для идентификации звонящих и разделением пайплайнов синтеза.
—Система работает на полностью российском стеке (Yandex SpeechKit и YandexGPT), данные не покидают РФ.
—Ключевое архитектурное решение — единый «мозг» для всех каналов (голос, Telegram, MAX) с stateless-движком и сменными адаптерами.
—После исправлений агент стабильно обслуживает запись клиентов и ответы на вопросы без участия человека.

Глоссарий · 3 термина▾

Function calling: Механизм, при котором языковая модель может вызывать предопределённые функции (инструменты) во время генерации ответа.
Speaker embedding: Векторное представление голоса, позволяющее идентифицировать говорящего по уникальным акустическим характеристикам.
Stateless-движок: Архитектура, при которой сервис не хранит состояние между запросами, а получает его извне (например, из сериализованного JSON).

Компания AIRA разрабатывает ИИ-ресепшиониста для сервисного бизнеса. Один диалоговый «мозг» обрабатывает звонки, сообщения в Telegram и через веб-виджет, записывает клиентов, отвечает из базы знаний и при необходимости передаёт разговор человеку. Тестовым арендатором стал барбершоп «Здоровый Лось». Первые три месяца эксплуатации в голосовом канале выявили три серьёзные проблемы, которые потребовали не «хороших промптов», а изменений в архитектуре кода.

Первая проблема: агент сообщил клиенту, что переводит его на администратора, хотя такого сотрудника не существовало. При анализе логов выяснилось: модель зациклилась на вызове инструмента goto(stage=confirm) — она девять раз подряд пыталась перейти на стадию подтверждения, игнорируя enum в JSON-схеме. После исчерпания лимита вызовов (MAX_TOOL_ROUNDS=10) система интерпретировала это как команду transfer, и агент «перевёл» звонок в никуда. Исправление: в инструмент goto добавлена стадия no_transfer с null-обработчиком, а в саму архитектуру — явное различие между передачей вызова и ошибкой модели.

Вторая проблема: агент путал звонящих. В какой-то момент он начал принимать всех за одного и того же человека — использовал предыдущий контекст для каждого нового звонка. Причина оказалась в том, что идентификация звонящего строилась только на номере телефона, а номер мог повторяться при тестировании. Решение: введён speaker embedding на основе аудио-фрагмента первых секунд разговора. Если вектор голоса не совпадал с сохранённым для данного номера, открывался новый сеанс.

Проблемы устранялись доработкой кода: добавлением стадии no_transfer, внедрением speaker embedding для идентификации звонящих и разделением пайплайнов синтеза.

Третья проблема: клонированный голос не работал. Система должна была синтезировать голос администратора, но вместо этого выдавала стандартный синтезатор. Оказалось, что клонирование голоса — дорогая операция, и его не включали в базовый пайплайн. Исправили разделением синтеза на два потока: дешёвый синтез для стандартных фраз и клонирование только для персонализированных ответов. В итоге агент стал выдавать «клонированный» голос только при явном запросе.

Архитектура решения строится на едином stateless-движке aira-core, который через HTTP принимает запросы от всех каналов. Голосовой тракт обрабатывается в отдельном контейнере, а мозг не знает, барбершоп это или стоматология — вертикаль настраивается через конфиг. Для звонков используется Yandex SpeechKit (STT/TTS) и YandexGPT, данные остаются в РФ. После исправлений агент стабильно работает без вмешательства человека, хотя остаётся вопрос масштабирования на тысячи бизнесов с разными сценариями.

Текстовые каналы, по словам разработчиков, — решённая задача: чат прощает паузы и переспросы. Голос же требует идеальной синхронизации: задержка в секунду воспринимается как молчание, а каждая ошибка становится фатальной. Опыт AIRA показывает, что для надёжности голосового ИИ необходима не только точная модель, но и грамотная архитектура, разделяющая обработку аудио и логику диалога.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Anthropic Claude на NVIDIA GB300 стал доступен в Microsoft Foundry на Azure

Продолжить по разделам

Голосовой ИИ-агент врал клиентам и путал звонящих: три месяца багов и их исправление

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Anthropic Claude на NVIDIA GB300 стал доступен в Microsoft Foundry на Azure