Аналитики Vanguard годами сталкивались с одной и той же проблемой: чтобы получить ответ на финансовый вопрос, нужно было либо самому писать сложный SQL-запрос, либо ждать несколько дней, пока команда данных выполнит задачу. Для компании, управляющей активами на триллионы долларов, такая задержка — не просто неудобство, а реальное ограничение для принятия решений.

Когда Vanguard запустил проект Virtual Analyst, первоначальная гипотеза была предсказуемой: нужно выбрать правильную языковую модель. Однако в процессе работы команда пришла к другому выводу. Самые мощные LLM оказались бесполезны без надлежащей инфраструктуры данных. Проблема была не в ИИ — она была в архитектуре.

Сервис AWSРоль в архитектуре Virtual Analyst
Amazon BedrockЯзыковые модели и понимание естественного языка
Amazon Bedrock GuardrailsЗащита входных и выходных данных ИИ
Amazon RedshiftЦентрализованное хранилище данных
AWS GlueКаталогизация данных и ETL-процессы
Amazon DynamoDBХранение истории диалогов с минимальной задержкой
Amazon ECSМасштабируемая вычислительная инфраструктура
Amazon S3Хранение файлов
Amazon SageMakerЭксперименты с моделями

Это наблюдение привело к концепции «данных, готовых к ИИ» (AI-ready data). Vanguard сформулировал восемь принципов, которые легли в основу архитектуры. Первый — чёткие модели владения данными: у каждого критичного набора данных должен быть бизнес-владелец и технический стюард с задокументированными обязанностями. Второй — управление доступом и безопасность: команды комплаенса и безопасности подключились к проекту на ранних этапах, были внедрены ролевая авторизация на уровне запросов и логирование событий доступа для соответствия регуляторным требованиям финансовой отрасли. Третий принцип — единый каталог метаданных, объединяющий технический и бизнесовый контекст через API. Четвёртый — семантический слой, который переводит бизнес-определения и правила в исполняемую логику, позволяя аналитикам формулировать запросы на естественном языке.

Vanguard использовал Amazon Bedrock, Redshift, DynamoDB, Glue и другие сервисы AWS для построения инфраструктуры.

AI-Ready Data Blueprint
AI-Ready Data Blueprint · Источник: AWS Machine Learning Blog

Технический стек Virtual Analyst построен целиком на AWS. Amazon Bedrock обеспечивает доступ к языковым моделям и понимание естественного языка; Amazon Bedrock Guardrails защищает входные и выходные данные от утечки чувствительной финансовой информации. Хранилище данных реализовано на Amazon Redshift, каталогизация и ETL-процессы — на AWS Glue. Для хранения истории диалогов с минимальной задержкой используется Amazon DynamoDB, вычислительная инфраструктура масштабируется через Amazon ECS, а эксперименты проводятся в Amazon SageMaker.

Одним из главных организационных достижений проекта стало разрушение привычных барьеров между командами. Vanguard собрал вместе инженеров данных, бизнес-аналитиков, специалистов по комплаенсу, безопасности и конечных пользователей. Каждая группа привнесла незаменимую экспертизу: инженеры знали техническую инфраструктуру, аналитики понимали семантику финансовых метрик, комплаенс-команда обеспечивала соответствие регуляторным требованиям, а бизнес-пользователи задавали реальный контекст применения инсайтов. Без этой кросс-функциональной модели, по оценке команды, ИИ-решение не имело бы надёжного фундамента.

Опыт Vanguard показывает характерную для корпоративного ИИ закономерность: барьер для внедрения разговорных систем в крупных организациях — не качество моделей, а состояние данных. Компании, которые инвестируют в семантические слои, каталоги метаданных и чёткие модели владения, получают возможность масштабировать подобные решения на другие подразделения без повторной перестройки фундамента. Для финансовой отрасли, где данные особенно чувствительны и регулируемы, этот подход становится стандартом де-факто.