Презентационная схема финтех-бота выглядит просто: звонок, языковая модель, ответ. Реальная система устроена иначе — между клиентом и LLM стоит несколько слоёв, каждый из которых закрывает отдельный класс рисков. Если хотя бы один слой слабый, никакая модель не компенсирует провал.

Первый слой, который чаще всего недооценивают, — routing. Он решает не только кому достанется разговор — оператору, сценарному движку или LLM, — но и что вообще допустимо делать в этом диалоге. Можно ли сейчас звонить? Не повторный ли это контакт? Не переполнена ли очередь? В сценариях взыскания routing напрямую касается закона: там ограничены время и частота контактов, а при работе автоматизированного агента клиент должен иметь возможность переключиться на живого сотрудника. Фактически routing одновременно управляет удобством диалога, процессом и соблюдением регуляторных требований.

КомпонентЗа что отвечаетЧто ломается при слабом компонентеНа что смотреть в эксплуатации
ASRПревращает речь в текстБот неверно понимает запрос на входеОшибки распознавания, устойчивость к шуму, время до первого понятного текста
NLUОпределяет намерение и базовый контекстСистема плохо маршрутизирует простые сценарииТочность intent'ов, доля нераспознанных запросов
RoutingРешает, кто и как ведёт диалог дальшеПетли, потерянные клиенты, нарушения правил контактаДоля корректных маршрутов, качество handoff, ошибки по времени и частоте контактов
API / toolsДостаёт факты и запускает действияКрасивые, но ложные ответыУспешность вызовов, latency, качество возврата ошибок
KnowledgeДаёт нормативные и продуктовые знанияОбщие, пустые или устаревшие ответыАктуальность контента, полнота, качество retrieval
ComplianceОграничивает рамки общения и рискиНарушения раскрытия, персональных данных, некорректные ответыНаличие opening, логов, правил эскалации, контролей качества
Voice layerДелает разговор естественнымБот звучит как автоинформатор и сыпется на перебиванияхInterruption handling, паузы, время до начала полезного ответа
LLM orchestrationСобирает контекст, формулирует ответ, вызывает разрешённые инструментыМодель говорит слишком свободно или бесполезно формальноТочность по сценариям, доля честных отказов, стабильность при длинном контексте

Второй слой — API и внешние инструменты. Бот не должен «знать» размер задолженности, дату последнего платежа или стадию обращения из весов модели. Все эти данные он обязан получать из систем-источников в момент разговора. Исследования по tool use показывают: языковая модель выигрывает именно тогда, когда умеет обращаться к внешним инструментам, а не когда пытается их заменить. На российском финансовом рынке логика открытых API движется в ту же сторону — единые правила взаимодействия, форматы данных, требования к безопасности и распределение ответственности.

Routing отвечает не только за маршрутизацию диалога, но и за соблюдение законодательных ограничений по времени и частоте контактов в сценариях взыскания.

Третий слой — knowledge, база знаний. Распространённая ошибка — считать её «папкой документов, прикреплённой к боту». Knowledge management — это система с владельцами знаний, управлением версиями, метаданными, процессами обновления и метриками качества. Если система плохо ищет нужную информацию и хранит её неструктурированно, даже сильная модель не сможет стабильно давать точные и проверяемые ответы.

Четвёртый слой — compliance. Здесь опасно путать хороший промпт с управлением риском. Промпт может попросить модель быть вежливой, но он не гарантирует право клиента отказаться от взаимодействия с ИИ, не обеспечивает пересмотр решений и не создаёт политику управления рисками. Этический кодекс регулятора по ИИ на финансовом рынке перечисляет конкретные принципы: человекоцентричность, прозрачность, безопасность, мониторинг, конфиденциальность и ответственное управление рисками.

Пятый слой — voice. Когда бизнес говорит «хотим, чтобы бот разговаривал естественно», речь почти никогда не о тембре голоса. Имеется в виду: чтобы бот не ждал театральной паузы, переживал перебивания, реагировал на короткие сигналы внимания («угу», «да», «секунду»). Исследования full-duplex dialogue systems показывают, что даже продвинутые системы заметно деградируют при частых перебиваниях и шуме. «Сделать красивый TTS» — это ещё не «сделать живой разговор».

Шестой слой — оркестрация LLM. В зрелой системе модель — не мозг платформы, а слой смысловой сборки. Она получает допустимый контекст, вызывает разрешённые инструменты, обращается к базе знаний, формулирует ответ понятным языком, проходит через фильтры и при необходимости передаёт разговор оператору. Модель сильна тогда, когда у неё есть описанные инструменты, понятные границы и измеримое качество — а не когда ей дают свободу фантазировать о фактах.

При выводе системы в продакшен неизбежно возникают три компромисса. Первый — latency против точности: чем больше проверок и обращений к внешним системам, тем выше задержка, но ниже вероятность уверенно неверного ответа. Второй — управляемость против разговорной свободы: жёсткие правила делают систему безопаснее, но менее естественной. Третий — стоимость против операционной зрелости. Все три лучше обсудить до пилота, а не после него.