Одна из типичных проблем при дообучении языковых моделей в корпоративной среде — разрыв между платформой обучения и системой управления данными. Если задание SageMaker ИИ Training читает объекты из S3 напрямую, минуя Databricks Unity Catalog, компания теряет информацию о том, какие данные использовались для обучения конкретной модели. В регулируемых отраслях — финансах, здравоохранении, страховании — это создаёт реальные compliance-риски.

AWS Machine Learning Blog опубликовал детальную архитектуру, закрывающую этот пробел. Решение объединяет три сервиса: Amazon SageMaker ИИ для оркестрации и обучения, Amazon EMR Serverless для предобработки данных на Apache Spark и Databricks Unity Catalog как единую точку управления метаданными, правами доступа и линией данных. Все учётные данные Databricks хранятся в AWS Secrets Manager и передаются через OAuth M2M (machine-to-machine) — протокол, выдающий короткоживущие токены для сервисных принципалов без хранения паролей в коде.

КомпонентРоль в архитектуре
Amazon SageMaker AI Studio — JupyterLabОркестрация рабочего процесса и обучение модели
Amazon EMR ServerlessПредобработка данных на Spark без управления кластерами
Databricks Unity CatalogКаталог метаданных, управление доступом и lineage
Hugging FaceИсточник предобученной модели Ministral-3-3B-Instruct
Amazon S3Хранение данных и артефактов модели
AWS Secrets ManagerУправление OAuth-учётными данными Databricks

Для демонстрации используются публичные данные SEC EDGAR — раздел «Факторы риска» из годовых (10-K) и квартальных (10-Q) отчётов компаний из индекса S&P 500 за 2023–2024 годы. Данные загружаются через публичный API SEC, извлекаются в JSON-формат и размещаются в S3-бакете с партиционированием по типу формы, фискальному году и идентификатору компании (CIK). На этих данных дообучается модель Ministral-3-3B-Instruct, полученная с Hugging Face.

Предобработка данных выполняется через EMR Serverless с Apache Spark без необходимости управлять кластерами вручную.

Architecture diagram showing AWS Cloud integration with Unity Catalog for machine learning model fine-tuning using Amazon SageMaker, Amazon EMR, and Hugging Face.
Architecture diagram showing AWS Cloud integration with Unity Catalog for machine learning model fine-tuning using Amazon SageMaker, Amazon EMR, and Hugging Face. · Источник: AWS Machine Learning Blog

Поток данных выглядит следующим образом: пользователь запускает процесс из JupyterLab в SageMaker ИИ Studio, EMR Serverless-задание читает исходную таблицу Unity Catalog через Open REST API, обрабатывает данные Spark-ом и записывает результат в новую таблицу Unity Catalog. Затем SageMaker ИИ Training job забирает обработанные данные, дообучает модель и сохраняет артефакты обратно в S3-бакет, управляемый Unity Catalog. Финальный шаг — регистрация модели в Unity Catalog и создание записи о внешней линии данных, связывающей исходные таблицы с обученной моделью.

Ключевое отличие подхода от прямого доступа к S3 — все операции чтения и записи проходят через авторизационную модель Unity Catalog. Это означает, что политики доступа применяются консистентно, а в журнале аудита фиксируется полная цепочка: от исходных данных до зарегистрированного артефакта модели. Для команд, работающих под требованиями SOC 2, GDPR или отраслевых регуляторов, это принципиально — без такой трассировки невозможно ответить на вопрос регулятора о том, на каких данных обучалась модель, принявшая конкретное решение.

С технической точки зрения решение не требует отказа от существующей инфраструктуры: Databricks-воркспейс остаётся на AWS, данные физически хранятся в S3, а SageMaker ИИ и EMR Serverless работают в той же облачной среде. EMR Serverless снимает необходимость управлять Spark-кластерами вручную — ресурсы выделяются под конкретное задание и освобождаются после его завершения. Для запуска потребуется настроенный VPC с доступом в интернет, IAM-роли для SageMaker ИИ и EMR Serverless, а также OAuth-credentials для Databricks, созданные через сервисный принципал.