Как дообучить LLM на данных Databricks Unity Catalog через Amazon SageMaker ИИ

AWS Machine Learning Blog·вчера·3 минЛабораторииКод

Инженеры AWS опубликовали архитектуру, позволяющую дообучать языковые модели через SageMaker ИИ Training, не обходя систему управления данными Databricks Unity Catalog — с сохранением аудиторского следа и соответствия требованиям регуляторов. В основе решения — связка из EMR Serverless, OAuth M2M и AWS Secrets Manager.

Кратко

—Решение дообучает модель Ministral-3-3B-Instruct на данных SEC EDGAR — отчётах 10-K и 10-Q компаний из S&P 500 за 2023–2024 годы.
—Предобработка данных выполняется через EMR Serverless с Apache Spark без необходимости управлять кластерами вручную.
—Доступ к данным в S3 осуществляется через Unity Catalog Open REST API с OAuth-токенами, хранящимися в AWS Secrets Manager.
—После дообучения артефакты модели регистрируются обратно в Unity Catalog с созданием внешней линии данных (data lineage).
—Архитектура сохраняет централизованное управление правами доступа и устраняет риск потери видимости того, на каких данных обучалась модель.

Глоссарий · 6 терминов▾

Unity Catalog: Централизованная система управления метаданными, правами доступа и линией данных в Databricks, работающая поверх хранилищ данных в облаке.
Data lineage: Документированная цепочка происхождения данных: откуда они взяты, как преобразованы и где использованы — например, для обучения модели.
EMR Serverless: Управляемый сервис AWS для запуска заданий Apache Spark без необходимости создавать и настраивать кластеры вручную.
OAuth M2M: Протокол авторизации для взаимодействия между сервисами (machine-to-machine), выдающий короткоживущие токены доступа без использования паролей.
Fine-tuning: Дообучение предобученной языковой модели на специализированном наборе данных для адаптации к конкретной задаче или домену.
SEC EDGAR: Публичная база данных Комиссии по ценным бумагам и биржам США, содержащая корпоративную отчётность, в том числе годовые (10-K) и квартальные (10-Q) формы.

Одна из типичных проблем при дообучении языковых моделей в корпоративной среде — разрыв между платформой обучения и системой управления данными. Если задание SageMaker ИИ Training читает объекты из S3 напрямую, минуя Databricks Unity Catalog, компания теряет информацию о том, какие данные использовались для обучения конкретной модели. В регулируемых отраслях — финансах, здравоохранении, страховании — это создаёт реальные compliance-риски.

AWS Machine Learning Blog опубликовал детальную архитектуру, закрывающую этот пробел. Решение объединяет три сервиса: Amazon SageMaker ИИ для оркестрации и обучения, Amazon EMR Serverless для предобработки данных на Apache Spark и Databricks Unity Catalog как единую точку управления метаданными, правами доступа и линией данных. Все учётные данные Databricks хранятся в AWS Secrets Manager и передаются через OAuth M2M (machine-to-machine) — протокол, выдающий короткоживущие токены для сервисных принципалов без хранения паролей в коде.

Компонент	Роль в архитектуре
Amazon SageMaker AI Studio — JupyterLab	Оркестрация рабочего процесса и обучение модели
Amazon EMR Serverless	Предобработка данных на Spark без управления кластерами
Databricks Unity Catalog	Каталог метаданных, управление доступом и lineage
Hugging Face	Источник предобученной модели Ministral-3-3B-Instruct
Amazon S3	Хранение данных и артефактов модели
AWS Secrets Manager	Управление OAuth-учётными данными Databricks

Для демонстрации используются публичные данные SEC EDGAR — раздел «Факторы риска» из годовых (10-K) и квартальных (10-Q) отчётов компаний из индекса S&P 500 за 2023–2024 годы. Данные загружаются через публичный API SEC, извлекаются в JSON-формат и размещаются в S3-бакете с партиционированием по типу формы, фискальному году и идентификатору компании (CIK). На этих данных дообучается модель Ministral-3-3B-Instruct, полученная с Hugging Face.

Предобработка данных выполняется через EMR Serverless с Apache Spark без необходимости управлять кластерами вручную.

Architecture diagram showing AWS Cloud integration with Unity Catalog for machine learning model fine-tuning using Amazon SageMaker, Amazon EMR, and Hugging Face. · Источник: AWS Machine Learning Blog

Поток данных выглядит следующим образом: пользователь запускает процесс из JupyterLab в SageMaker ИИ Studio, EMR Serverless-задание читает исходную таблицу Unity Catalog через Open REST API, обрабатывает данные Spark-ом и записывает результат в новую таблицу Unity Catalog. Затем SageMaker ИИ Training job забирает обработанные данные, дообучает модель и сохраняет артефакты обратно в S3-бакет, управляемый Unity Catalog. Финальный шаг — регистрация модели в Unity Catalog и создание записи о внешней линии данных, связывающей исходные таблицы с обученной моделью.

Ключевое отличие подхода от прямого доступа к S3 — все операции чтения и записи проходят через авторизационную модель Unity Catalog. Это означает, что политики доступа применяются консистентно, а в журнале аудита фиксируется полная цепочка: от исходных данных до зарегистрированного артефакта модели. Для команд, работающих под требованиями SOC 2, GDPR или отраслевых регуляторов, это принципиально — без такой трассировки невозможно ответить на вопрос регулятора о том, на каких данных обучалась модель, принявшая конкретное решение.

С технической точки зрения решение не требует отказа от существующей инфраструктуры: Databricks-воркспейс остаётся на AWS, данные физически хранятся в S3, а SageMaker ИИ и EMR Serverless работают в той же облачной среде. EMR Serverless снимает необходимость управлять Spark-кластерами вручную — ресурсы выделяются под конкретное задание и освобождаются после его завершения. Для запуска потребуется настроенный VPC с доступом в интернет, IAM-роли для SageMaker ИИ и EMR Serverless, а также OAuth-credentials для Databricks, созданные через сервисный принципал.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме