Amazon Web Services встроила в SageMaker AI Studio агентный режим, который меняет точку входа в процесс дообучения языковых моделей. Вместо того чтобы вручную разбираться с API, форматами данных и гиперпараметрами, разработчик описывает задачу текстом — и агент берёт на себя планирование и генерацию кода.

В основе системы лежат девять модульных Skills — предустановленных наборов инструкций, которые кодируют экспертизу AWS и data science по всему жизненному циклу кастомизации. Каждый навык отвечает за конкретный этап: определение задачи (Use Case Specification), построение плана (Planning Discovery), выбор базовой модели и техники дообучения (Fine-tuning Setup), валидацию датасета (Dataset Evaluation), преобразование форматов данных (Dataset Transformation), обучение (Fine-tuning), оценку качества (Model Evaluation) и деплой (Model Deployment). Агент активирует нужные навыки по контексту запроса и генерирует готовые к запуску Jupyter-ноутбуки на каждом шаге.

Навык (Skill)ФазаОписание
Use Case SpecificationКонфигурацияСтруктурированное определение бизнес-задачи, пользователей и критериев успеха
Planning DiscoveryПланированиеГенерирует многошаговый план кастомизации под конкретный сценарий
Fine-tuning SetupКонфигурация, обучениеВыбирает базовую модель из SageMaker AI Hub и рекомендует технику (SFT, DPO или RLVR)
Dataset EvaluationОценка, обучениеВалидирует формат и схему датасета перед обучением
Dataset TransformationИнженерия данныхКонвертирует данные между форматами (OpenAI chat, SageMaker AI, Hugging Face, Amazon Nova)
Fine-tuningОбучениеГенерирует ноутбуки для serverless-дообучения в SageMaker AI
Model EvaluationОценкаНастраивает оценку по методу LLM-as-a-Judge со встроенными и пользовательскими метриками
Model DeploymentДеплойОпределяет путь деплоя (эндпоинт SageMaker AI или Bedrock) и генерирует код

Система поддерживает три техники дообучения. SFT (Supervised Fine-Tuning) обучает модель на парах «вход — выход» и подходит для задач следования инструкциям и адаптации к домену. DPO (Direct Preference Optimization) обучает на парах «предпочтительный — отклонённый ответ» и используется для выравнивания тона и стиля под человеческие предпочтения. RLVR (Reinforcement Learning with Verifiable Rewards) применяет программно верифицируемые функции вознаграждения — оптимален для задач, где правильность ответа можно проверить автоматически, например в математике или программировании. Агент рекомендует технику на этапе планирования, исходя из описания задачи.

Поддерживаются три техники дообучения: SFT, DPO и RLVR — агент рекомендует нужную под конкретную задачу.

Kiro chat panel in JupyterLab
Kiro chat panel in JupyterLab · Источник: AWS Machine Learning Blog

В качестве агентного интерфейса по умолчанию используется Kiro — собственный ИИ-агент Amazon для разработки программного обеспечения, предустановленный в панели чата JupyterLab. При этом архитектура открытая: через протокол ACP (Agent Communication Protocol) можно подключить Claude Code, Cursor или любой другой совместимый агент. Все они получают доступ к тем же SageMaker AI Skills. Помимо работы внутри JupyterLab, поддерживается удалённое подключение из внешней IDE.

Для оценки качества дообученных моделей используется подход LLM-as-a-Judge — когда одна языковая модель оценивает ответы другой по заданным метрикам. Это позволяет автоматизировать оценку там, где нет однозначного эталонного ответа. Поддерживаются как встроенные метрики, так и пользовательские. Деплой возможен на эндпоинт SageMaker AI или в Amazon Bedrock.

Skills настраиваемы: команды могут модифицировать их под собственные стандарты управления, инструменты и воспроизводимые практики — проблема, которую плохо решают универсальные ИИ-ассистенты. Все сгенерированные артефакты остаются полностью редактируемыми и встраиваются в существующие ML-пайплайны без переработки.

В качестве демонстрационного сценария AWS предлагает дообучение небольшой языковой модели на датасете FreedomIntelligence/medical-o1-reasoning-SFT — для построения модели клинического рассуждения, которая разбирает медицинские случаи пошагово перед постановкой диагноза. Для работы с новыми функциями требуется SageMaker AI Distribution версии 4.1 или выше.