Многократные агенты, выполняющие последовательные шаги (чтение инструкций, вызов инструментов, обработка ошибок), сложнее в обучении, чем одношаговые системы. Amazon SageMaker ИИ Multi-Turn RL (SageMaker ИИ MTRL) предоставляет готовый цикл обучения для таких агентов. Сервис поддерживает развертывание на Amazon Bedrock, EKS, EC2 или Fargate, а также on-premise инфраструктуру через адаптер. Выбор алгоритмов включает PPO, Clipped Importance Sampling Policy Optimization (CISPO) и несколько групповых оценщиков преимуществ (GRPO, RLOO).
Ключевая рекомендация — строить среду обучения как изолированный симулятор, а не использовать живые системы. Типичный запуск с batch size 128 и group size 8 даёт 1024 развертывания на шаг — такое количество запросов может вызвать сбои в продуктивном окружении. Amazon выделяет три паттерна симуляции: read-only (воспроизведение записанных ответов), deterministic (генерируемый ответ по правилам) и generative (LLM имитирует внешние системы). Пример из бенчмарка SOP-Bench (12 бизнес-доменов) показывает, что read-only инструменты подходят для чтения данных, а deterministic — для транзакций вроде возвратов.
| Паттерн среды | Описание | Пример использования |
|---|---|---|
| Read-only | Воспроизведение записанных ответов по ключам | Чтение информации о клиенте |
| Deterministic | Генерация ответа по фиксированным правилам | Обработка возврата товара |
| Generative | LLM имитирует внешнюю систему | Сложные транзакции с недетерминированным результатом |
Дизайн функции награды — вторая критическая точка. В многократном RL агент может обмануть награду, выполняя действия без достижения цели. Рекомендуется использовать внешнюю валидацию (набор labelled задач или судейскую модель) и отслеживать reward shaping и длину траектории. SageMaker ИИ MTRL предоставляет observability через MLflow, что позволяет видеть пошаговое поведение агента и метрики pass@k. Такой подход повышает надёжность агента и снижает риск нежелательных побочных эффектов, например, случайных возвратов или удаления записей.
Рекомендуется использовать изолированные симулированные среды для обучения, избегая воздействия на живые системы.



