Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

Подготовлено редакцией Malakhov AI

AWS Machine Learning Blog·2 часа назад·1 минЛабораторииКод

Amazon SageMaker ИИ представил возможности многократного обучения с подкреплением (multi-turn RL) для агентных задач, позволяющие проводить до 1024 развертываний на шаг обучения. Сервис поддерживает алгоритмы PPO, GRPO и другие, а также предоставляет инструменты для построения симулированных сред, оценки наград и мониторинга.

Кратко

—SageMaker ИИ MTRL поддерживает алгоритмы PPO, CISPO, GRPO и несколько групповых оценщиков преимуществ.
—Рекомендуется использовать изолированные симулированные среды для обучения, избегая воздействия на живые системы.
—Набор данных SOP-Bench от Amazon Science оценивает агентов по разрешению задач в 12 бизнес-доменах.
—Внешняя оценка и мониторинг через MLflow помогают отслеживать траектории и метрики награды.

Глоссарий · 3 термина▾

Проксимальная оптимизация политики (PPO): Алгоритм обучения с подкреплением, использующий клипирование обновлений для стабильности.
GRPO: Group Relative Policy Optimization — метод оценки преимуществ на основе группы траекторий.
Reward hacking: Ситуация, когда агент находит способ получить высокую награду, не выполняя задачу.

Многократные агенты, выполняющие последовательные шаги (чтение инструкций, вызов инструментов, обработка ошибок), сложнее в обучении, чем одношаговые системы. Amazon SageMaker ИИ Multi-Turn RL (SageMaker ИИ MTRL) предоставляет готовый цикл обучения для таких агентов. Сервис поддерживает развертывание на Amazon Bedrock, EKS, EC2 или Fargate, а также on-premise инфраструктуру через адаптер. Выбор алгоритмов включает PPO, Clipped Importance Sampling Policy Optimization (CISPO) и несколько групповых оценщиков преимуществ (GRPO, RLOO).

Ключевая рекомендация — строить среду обучения как изолированный симулятор, а не использовать живые системы. Типичный запуск с batch size 128 и group size 8 даёт 1024 развертывания на шаг — такое количество запросов может вызвать сбои в продуктивном окружении. Amazon выделяет три паттерна симуляции: read-only (воспроизведение записанных ответов), deterministic (генерируемый ответ по правилам) и generative (LLM имитирует внешние системы). Пример из бенчмарка SOP-Bench (12 бизнес-доменов) показывает, что read-only инструменты подходят для чтения данных, а deterministic — для транзакций вроде возвратов.

Паттерн среды	Описание	Пример использования
Read-only	Воспроизведение записанных ответов по ключам	Чтение информации о клиенте
Deterministic	Генерация ответа по фиксированным правилам	Обработка возврата товара
Generative	LLM имитирует внешнюю систему	Сложные транзакции с недетерминированным результатом

Дизайн функции награды — вторая критическая точка. В многократном RL агент может обмануть награду, выполняя действия без достижения цели. Рекомендуется использовать внешнюю валидацию (набор labelled задач или судейскую модель) и отслеживать reward shaping и длину траектории. SageMaker ИИ MTRL предоставляет observability через MLflow, что позволяет видеть пошаговое поведение агента и метрики pass@k. Такой подход повышает надёжность агента и снижает риск нежелательных побочных эффектов, например, случайных возвратов или удаления записей.

Рекомендуется использовать изолированные симулированные среды для обучения, избегая воздействия на живые системы.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Google Research открыла карту отражательной способности крыш для 50+ городов

Продолжить по разделам

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

Кратко

Читать дальше

NVIDIA внедряет модель разделения выручки для доступа к ИИ-инфраструктуре

Amazon Bedrock в AWS GovCloud (US) получил OpenAI GPT OSS и NVIDIA Nemotron

Google Research открыла карту отражательной способности крыш для 50+ городов