Amazon Web Services встроила в SageMaker AI Studio агентный режим, который меняет точку входа в процесс дообучения языковых моделей. Вместо того чтобы вручную разбираться с API, форматами данных и гиперпараметрами, разработчик описывает задачу текстом — и агент берёт на себя планирование и генерацию кода.
В основе системы лежат девять модульных Skills — предустановленных наборов инструкций, которые кодируют экспертизу AWS и data science по всему жизненному циклу кастомизации. Каждый навык отвечает за конкретный этап: определение задачи (Use Case Specification), построение плана (Planning Discovery), выбор базовой модели и техники дообучения (Fine-tuning Setup), валидацию датасета (Dataset Evaluation), преобразование форматов данных (Dataset Transformation), обучение (Fine-tuning), оценку качества (Model Evaluation) и деплой (Model Deployment). Агент активирует нужные навыки по контексту запроса и генерирует готовые к запуску Jupyter-ноутбуки на каждом шаге.
| Навык (Skill) | Фаза | Описание |
|---|---|---|
| Use Case Specification | Конфигурация | Структурированное определение бизнес-задачи, пользователей и критериев успеха |
| Planning Discovery | Планирование | Генерирует многошаговый план кастомизации под конкретный сценарий |
| Fine-tuning Setup | Конфигурация, обучение | Выбирает базовую модель из SageMaker AI Hub и рекомендует технику (SFT, DPO или RLVR) |
| Dataset Evaluation | Оценка, обучение | Валидирует формат и схему датасета перед обучением |
| Dataset Transformation | Инженерия данных | Конвертирует данные между форматами (OpenAI chat, SageMaker AI, Hugging Face, Amazon Nova) |
| Fine-tuning | Обучение | Генерирует ноутбуки для serverless-дообучения в SageMaker AI |
| Model Evaluation | Оценка | Настраивает оценку по методу LLM-as-a-Judge со встроенными и пользовательскими метриками |
| Model Deployment | Деплой | Определяет путь деплоя (эндпоинт SageMaker AI или Bedrock) и генерирует код |
Система поддерживает три техники дообучения. SFT (Supervised Fine-Tuning) обучает модель на парах «вход — выход» и подходит для задач следования инструкциям и адаптации к домену. DPO (Direct Preference Optimization) обучает на парах «предпочтительный — отклонённый ответ» и используется для выравнивания тона и стиля под человеческие предпочтения. RLVR (Reinforcement Learning with Verifiable Rewards) применяет программно верифицируемые функции вознаграждения — оптимален для задач, где правильность ответа можно проверить автоматически, например в математике или программировании. Агент рекомендует технику на этапе планирования, исходя из описания задачи.
Поддерживаются три техники дообучения: SFT, DPO и RLVR — агент рекомендует нужную под конкретную задачу.

В качестве агентного интерфейса по умолчанию используется Kiro — собственный ИИ-агент Amazon для разработки программного обеспечения, предустановленный в панели чата JupyterLab. При этом архитектура открытая: через протокол ACP (Agent Communication Protocol) можно подключить Claude Code, Cursor или любой другой совместимый агент. Все они получают доступ к тем же SageMaker AI Skills. Помимо работы внутри JupyterLab, поддерживается удалённое подключение из внешней IDE.
Для оценки качества дообученных моделей используется подход LLM-as-a-Judge — когда одна языковая модель оценивает ответы другой по заданным метрикам. Это позволяет автоматизировать оценку там, где нет однозначного эталонного ответа. Поддерживаются как встроенные метрики, так и пользовательские. Деплой возможен на эндпоинт SageMaker AI или в Amazon Bedrock.
Skills настраиваемы: команды могут модифицировать их под собственные стандарты управления, инструменты и воспроизводимые практики — проблема, которую плохо решают универсальные ИИ-ассистенты. Все сгенерированные артефакты остаются полностью редактируемыми и встраиваются в существующие ML-пайплайны без переработки.
В качестве демонстрационного сценария AWS предлагает дообучение небольшой языковой модели на датасете FreedomIntelligence/medical-o1-reasoning-SFT — для построения модели клинического рассуждения, которая разбирает медицинские случаи пошагово перед постановкой диагноза. Для работы с новыми функциями требуется SageMaker AI Distribution версии 4.1 или выше.



