Презентационная схема финтех-бота выглядит просто: звонок, языковая модель, ответ. Реальная система устроена иначе — между клиентом и LLM стоит несколько слоёв, каждый из которых закрывает отдельный класс рисков. Если хотя бы один слой слабый, никакая модель не компенсирует провал.
Первый слой, который чаще всего недооценивают, — routing. Он решает не только кому достанется разговор — оператору, сценарному движку или LLM, — но и что вообще допустимо делать в этом диалоге. Можно ли сейчас звонить? Не повторный ли это контакт? Не переполнена ли очередь? В сценариях взыскания routing напрямую касается закона: там ограничены время и частота контактов, а при работе автоматизированного агента клиент должен иметь возможность переключиться на живого сотрудника. Фактически routing одновременно управляет удобством диалога, процессом и соблюдением регуляторных требований.
| Компонент | За что отвечает | Что ломается при слабом компоненте | На что смотреть в эксплуатации |
|---|---|---|---|
| ASR | Превращает речь в текст | Бот неверно понимает запрос на входе | Ошибки распознавания, устойчивость к шуму, время до первого понятного текста |
| NLU | Определяет намерение и базовый контекст | Система плохо маршрутизирует простые сценарии | Точность intent'ов, доля нераспознанных запросов |
| Routing | Решает, кто и как ведёт диалог дальше | Петли, потерянные клиенты, нарушения правил контакта | Доля корректных маршрутов, качество handoff, ошибки по времени и частоте контактов |
| API / tools | Достаёт факты и запускает действия | Красивые, но ложные ответы | Успешность вызовов, latency, качество возврата ошибок |
| Knowledge | Даёт нормативные и продуктовые знания | Общие, пустые или устаревшие ответы | Актуальность контента, полнота, качество retrieval |
| Compliance | Ограничивает рамки общения и риски | Нарушения раскрытия, персональных данных, некорректные ответы | Наличие opening, логов, правил эскалации, контролей качества |
| Voice layer | Делает разговор естественным | Бот звучит как автоинформатор и сыпется на перебиваниях | Interruption handling, паузы, время до начала полезного ответа |
| LLM orchestration | Собирает контекст, формулирует ответ, вызывает разрешённые инструменты | Модель говорит слишком свободно или бесполезно формально | Точность по сценариям, доля честных отказов, стабильность при длинном контексте |
Второй слой — API и внешние инструменты. Бот не должен «знать» размер задолженности, дату последнего платежа или стадию обращения из весов модели. Все эти данные он обязан получать из систем-источников в момент разговора. Исследования по tool use показывают: языковая модель выигрывает именно тогда, когда умеет обращаться к внешним инструментам, а не когда пытается их заменить. На российском финансовом рынке логика открытых API движется в ту же сторону — единые правила взаимодействия, форматы данных, требования к безопасности и распределение ответственности.
Routing отвечает не только за маршрутизацию диалога, но и за соблюдение законодательных ограничений по времени и частоте контактов в сценариях взыскания.
Третий слой — knowledge, база знаний. Распространённая ошибка — считать её «папкой документов, прикреплённой к боту». Knowledge management — это система с владельцами знаний, управлением версиями, метаданными, процессами обновления и метриками качества. Если система плохо ищет нужную информацию и хранит её неструктурированно, даже сильная модель не сможет стабильно давать точные и проверяемые ответы.
Четвёртый слой — compliance. Здесь опасно путать хороший промпт с управлением риском. Промпт может попросить модель быть вежливой, но он не гарантирует право клиента отказаться от взаимодействия с ИИ, не обеспечивает пересмотр решений и не создаёт политику управления рисками. Этический кодекс регулятора по ИИ на финансовом рынке перечисляет конкретные принципы: человекоцентричность, прозрачность, безопасность, мониторинг, конфиденциальность и ответственное управление рисками.
Пятый слой — voice. Когда бизнес говорит «хотим, чтобы бот разговаривал естественно», речь почти никогда не о тембре голоса. Имеется в виду: чтобы бот не ждал театральной паузы, переживал перебивания, реагировал на короткие сигналы внимания («угу», «да», «секунду»). Исследования full-duplex dialogue systems показывают, что даже продвинутые системы заметно деградируют при частых перебиваниях и шуме. «Сделать красивый TTS» — это ещё не «сделать живой разговор».
Шестой слой — оркестрация LLM. В зрелой системе модель — не мозг платформы, а слой смысловой сборки. Она получает допустимый контекст, вызывает разрешённые инструменты, обращается к базе знаний, формулирует ответ понятным языком, проходит через фильтры и при необходимости передаёт разговор оператору. Модель сильна тогда, когда у неё есть описанные инструменты, понятные границы и измеримое качество — а не когда ей дают свободу фантазировать о фактах.
При выводе системы в продакшен неизбежно возникают три компромисса. Первый — latency против точности: чем больше проверок и обращений к внешним системам, тем выше задержка, но ниже вероятность уверенно неверного ответа. Второй — управляемость против разговорной свободы: жёсткие правила делают систему безопаснее, но менее естественной. Третий — стоимость против операционной зрелости. Все три лучше обсудить до пилота, а не после него.



