Amazon SageMaker AI получил агентный интерфейс для тонкой настройки моделей

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·4 мая·3 минЛабораторииКод

Amazon SageMaker AI запустил агентный режим разработки: разработчик описывает задачу на естественном языке, а ИИ-агент — по умолчанию Kiro — самостоятельно проводит его через выбор техники дообучения, подготовку данных, оценку и деплой модели. Поддерживаются также Claude Code, Cursor и другие ACP-совместимые агенты.

Кратко

—Агент активирует один из девяти модульных навыков (Skills), покрывающих весь цикл кастомизации модели.
—Поддерживаются три техники дообучения: SFT, DPO и RLVR — агент рекомендует нужную под конкретную задачу.
—Все сгенерированные Jupyter-ноутбуки полностью редактируемы и встраиваются в существующие ML-пайплайны.
—Skills соответствуют открытому формату Agent Skills и настраиваются под стандарты конкретной команды.
—Для работы требуется SageMaker AI Distribution версии 4.1 и выше в JupyterLab-пространстве.

Глоссарий · 6 терминов▾

SFT (Supervised Fine-Tuning): Техника дообучения модели на размеченных парах «вопрос — правильный ответ» для адаптации к конкретным задачам.
DPO (Direct Preference Optimization): Метод дообучения, при котором модель учится на парах ответов, где один помечен как предпочтительный, — для выравнивания поведения под человеческие предпочтения.
RLVR (Reinforcement Learning with Verifiable Rewards): Техника обучения с подкреплением, где функция вознаграждения задаётся программно и проверяет корректность ответа автоматически.
LLM-as-a-Judge: Подход к оценке качества языковых моделей, при котором одна LLM автоматически оценивает ответы другой по заданным критериям.
ACP (Agent Communication Protocol): Открытый протокол для взаимодействия ИИ-агентов, позволяющий подключать разных агентов к одной инфраструктуре навыков.
Skills: Модульные наборы инструкций для ИИ-агента, кодирующие экспертизу по конкретному этапу рабочего процесса — например, подготовке данных или деплою модели.

Amazon Web Services встроила в SageMaker AI Studio агентный режим, который меняет точку входа в процесс дообучения языковых моделей. Вместо того чтобы вручную разбираться с API, форматами данных и гиперпараметрами, разработчик описывает задачу текстом — и агент берёт на себя планирование и генерацию кода.

В основе системы лежат девять модульных Skills — предустановленных наборов инструкций, которые кодируют экспертизу AWS и data science по всему жизненному циклу кастомизации. Каждый навык отвечает за конкретный этап: определение задачи (Use Case Specification), построение плана (Planning Discovery), выбор базовой модели и техники дообучения (Fine-tuning Setup), валидацию датасета (Dataset Evaluation), преобразование форматов данных (Dataset Transformation), обучение (Fine-tuning), оценку качества (Model Evaluation) и деплой (Model Deployment). Агент активирует нужные навыки по контексту запроса и генерирует готовые к запуску Jupyter-ноутбуки на каждом шаге.

Навык (Skill)	Фаза	Описание
Use Case Specification	Конфигурация	Структурированное определение бизнес-задачи, пользователей и критериев успеха
Planning Discovery	Планирование	Генерирует многошаговый план кастомизации под конкретный сценарий
Fine-tuning Setup	Конфигурация, обучение	Выбирает базовую модель из SageMaker AI Hub и рекомендует технику (SFT, DPO или RLVR)
Dataset Evaluation	Оценка, обучение	Валидирует формат и схему датасета перед обучением
Dataset Transformation	Инженерия данных	Конвертирует данные между форматами (OpenAI chat, SageMaker AI, Hugging Face, Amazon Nova)
Fine-tuning	Обучение	Генерирует ноутбуки для serverless-дообучения в SageMaker AI
Model Evaluation	Оценка	Настраивает оценку по методу LLM-as-a-Judge со встроенными и пользовательскими метриками
Model Deployment	Деплой	Определяет путь деплоя (эндпоинт SageMaker AI или Bedrock) и генерирует код

Система поддерживает три техники дообучения. SFT (Supervised Fine-Tuning) обучает модель на парах «вход — выход» и подходит для задач следования инструкциям и адаптации к домену. DPO (Direct Preference Optimization) обучает на парах «предпочтительный — отклонённый ответ» и используется для выравнивания тона и стиля под человеческие предпочтения. RLVR (Reinforcement Learning with Verifiable Rewards) применяет программно верифицируемые функции вознаграждения — оптимален для задач, где правильность ответа можно проверить автоматически, например в математике или программировании. Агент рекомендует технику на этапе планирования, исходя из описания задачи.

Поддерживаются три техники дообучения: SFT, DPO и RLVR — агент рекомендует нужную под конкретную задачу.

Kiro chat panel in JupyterLab · Источник: AWS Machine Learning Blog

В качестве агентного интерфейса по умолчанию используется Kiro — собственный ИИ-агент Amazon для разработки программного обеспечения, предустановленный в панели чата JupyterLab. При этом архитектура открытая: через протокол ACP (Agent Communication Protocol) можно подключить Claude Code, Cursor или любой другой совместимый агент. Все они получают доступ к тем же SageMaker AI Skills. Помимо работы внутри JupyterLab, поддерживается удалённое подключение из внешней IDE.

Для оценки качества дообученных моделей используется подход LLM-as-a-Judge — когда одна языковая модель оценивает ответы другой по заданным метрикам. Это позволяет автоматизировать оценку там, где нет однозначного эталонного ответа. Поддерживаются как встроенные метрики, так и пользовательские. Деплой возможен на эндпоинт SageMaker AI или в Amazon Bedrock.

Skills настраиваемы: команды могут модифицировать их под собственные стандарты управления, инструменты и воспроизводимые практики — проблема, которую плохо решают универсальные ИИ-ассистенты. Все сгенерированные артефакты остаются полностью редактируемыми и встраиваются в существующие ML-пайплайны без переработки.

В качестве демонстрационного сценария AWS предлагает дообучение небольшой языковой модели на датасете FreedomIntelligence/medical-o1-reasoning-SFT — для построения модели клинического рассуждения, которая разбирает медицинские случаи пошагово перед постановкой диагноза. Для работы с новыми функциями требуется SageMaker AI Distribution версии 4.1 или выше.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза

Продолжить по разделам

Amazon SageMaker AI получил агентный интерфейс для тонкой настройки моделей

Кратко

Читать дальше

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Stripe на 26% ускорил compliance-проверки с помощью ИИ-агентов на AWS Bedrock

OpenAI оценила влияние ИИ на рынок труда стран Евросоюза