Шесть слоёв между клиентом и галлюцинацией: архитектура голосового бота в финтехе

Подготовлено редакцией Malakhov AI

Habr AI·20 мая·3 минРоссияКод

Голосовой бот для финансовых сервисов — это не языковая модель с микрофоном, а восемь взаимозависимых компонентов, где слабейший определяет качество всей системы. Архитектура, описанная на реальном кейсе, показывает, почему LLM получает право говорить последней — и только в строго очерченных границах.

Кратко

—Гибридная NLU-архитектура включает слои ASR, NLU, routing, API, knowledge, compliance, voice и LLM-оркестрацию — каждый закрывает отдельный класс рисков.
—Routing отвечает не только за маршрутизацию диалога, но и за соблюдение законодательных ограничений по времени и частоте контактов в сценариях взыскания.
—Бот не должен «знать» размер долга или дату платежа из весов модели — все факты он получает через API из систем-источников.
—База знаний — не папка документов, а система с владельцами, версионированием и метриками качества; без этого даже сильная модель даёт нестабильные ответы.
—Три ключевых компромисса при выводе в продакшен: latency vs. точность, управляемость vs. разговорная свобода, стоимость vs. операционная зрелость.

Глоссарий · 7 терминов▾

ASR (Automatic Speech Recognition): Технология автоматического распознавания речи — преобразует аудиопоток в текст, который затем обрабатывается системой.
NLU (Natural Language Understanding): Компонент обработки естественного языка, который определяет намерение пользователя и извлекает ключевые параметры из его запроса.
Routing: Слой маршрутизации диалога: решает, кто и как продолжает разговор — сценарный движок, LLM или живой оператор.
Tool use: Способность языковой модели вызывать внешние инструменты и API вместо того, чтобы генерировать ответ только на основе своих весов.
Retrieval: Поиск и извлечение релевантной информации из базы знаний для формирования ответа модели.
Full-duplex dialogue systems: Диалоговые системы, способные одновременно говорить и слушать — как люди в живом разговоре, без ожидания паузы собеседника.
Latency: Задержка между запросом пользователя и ответом системы; в голосовых ботах критически влияет на восприятие естественности разговора.

Презентационная схема финтех-бота выглядит просто: звонок, языковая модель, ответ. Реальная система устроена иначе — между клиентом и LLM стоит несколько слоёв, каждый из которых закрывает отдельный класс рисков. Если хотя бы один слой слабый, никакая модель не компенсирует провал.

Первый слой, который чаще всего недооценивают, — routing. Он решает не только кому достанется разговор — оператору, сценарному движку или LLM, — но и что вообще допустимо делать в этом диалоге. Можно ли сейчас звонить? Не повторный ли это контакт? Не переполнена ли очередь? В сценариях взыскания routing напрямую касается закона: там ограничены время и частота контактов, а при работе автоматизированного агента клиент должен иметь возможность переключиться на живого сотрудника. Фактически routing одновременно управляет удобством диалога, процессом и соблюдением регуляторных требований.

Компонент	За что отвечает	Что ломается при слабом компоненте	На что смотреть в эксплуатации
ASR	Превращает речь в текст	Бот неверно понимает запрос на входе	Ошибки распознавания, устойчивость к шуму, время до первого понятного текста
NLU	Определяет намерение и базовый контекст	Система плохо маршрутизирует простые сценарии	Точность intent'ов, доля нераспознанных запросов
Routing	Решает, кто и как ведёт диалог дальше	Петли, потерянные клиенты, нарушения правил контакта	Доля корректных маршрутов, качество handoff, ошибки по времени и частоте контактов
API / tools	Достаёт факты и запускает действия	Красивые, но ложные ответы	Успешность вызовов, latency, качество возврата ошибок
Knowledge	Даёт нормативные и продуктовые знания	Общие, пустые или устаревшие ответы	Актуальность контента, полнота, качество retrieval
Compliance	Ограничивает рамки общения и риски	Нарушения раскрытия, персональных данных, некорректные ответы	Наличие opening, логов, правил эскалации, контролей качества
Voice layer	Делает разговор естественным	Бот звучит как автоинформатор и сыпется на перебиваниях	Interruption handling, паузы, время до начала полезного ответа
LLM orchestration	Собирает контекст, формулирует ответ, вызывает разрешённые инструменты	Модель говорит слишком свободно или бесполезно формально	Точность по сценариям, доля честных отказов, стабильность при длинном контексте

Второй слой — API и внешние инструменты. Бот не должен «знать» размер задолженности, дату последнего платежа или стадию обращения из весов модели. Все эти данные он обязан получать из систем-источников в момент разговора. Исследования по tool use показывают: языковая модель выигрывает именно тогда, когда умеет обращаться к внешним инструментам, а не когда пытается их заменить. На российском финансовом рынке логика открытых API движется в ту же сторону — единые правила взаимодействия, форматы данных, требования к безопасности и распределение ответственности.

Routing отвечает не только за маршрутизацию диалога, но и за соблюдение законодательных ограничений по времени и частоте контактов в сценариях взыскания.

Третий слой — knowledge, база знаний. Распространённая ошибка — считать её «папкой документов, прикреплённой к боту». Knowledge management — это система с владельцами знаний, управлением версиями, метаданными, процессами обновления и метриками качества. Если система плохо ищет нужную информацию и хранит её неструктурированно, даже сильная модель не сможет стабильно давать точные и проверяемые ответы.

Четвёртый слой — compliance. Здесь опасно путать хороший промпт с управлением риском. Промпт может попросить модель быть вежливой, но он не гарантирует право клиента отказаться от взаимодействия с ИИ, не обеспечивает пересмотр решений и не создаёт политику управления рисками. Этический кодекс регулятора по ИИ на финансовом рынке перечисляет конкретные принципы: человекоцентричность, прозрачность, безопасность, мониторинг, конфиденциальность и ответственное управление рисками.

Пятый слой — voice. Когда бизнес говорит «хотим, чтобы бот разговаривал естественно», речь почти никогда не о тембре голоса. Имеется в виду: чтобы бот не ждал театральной паузы, переживал перебивания, реагировал на короткие сигналы внимания («угу», «да», «секунду»). Исследования full-duplex dialogue systems показывают, что даже продвинутые системы заметно деградируют при частых перебиваниях и шуме. «Сделать красивый TTS» — это ещё не «сделать живой разговор».

Шестой слой — оркестрация LLM. В зрелой системе модель — не мозг платформы, а слой смысловой сборки. Она получает допустимый контекст, вызывает разрешённые инструменты, обращается к базе знаний, формулирует ответ понятным языком, проходит через фильтры и при необходимости передаёт разговор оператору. Модель сильна тогда, когда у неё есть описанные инструменты, понятные границы и измеримое качество — а не когда ей дают свободу фантазировать о фактах.

При выводе системы в продакшен неизбежно возникают три компромисса. Первый — latency против точности: чем больше проверок и обращений к внешним системам, тем выше задержка, но ниже вероятность уверенно неверного ответа. Второй — управляемость против разговорной свободы: жёсткие правила делают систему безопаснее, но менее естественной. Третий — стоимость против операционной зрелости. Все три лучше обсудить до пилота, а не после него.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ