Многократные агенты, выполняющие последовательные шаги (чтение инструкций, вызов инструментов, обработка ошибок), сложнее в обучении, чем одношаговые системы. Amazon SageMaker ИИ Multi-Turn RL (SageMaker ИИ MTRL) предоставляет готовый цикл обучения для таких агентов. Сервис поддерживает развертывание на Amazon Bedrock, EKS, EC2 или Fargate, а также on-premise инфраструктуру через адаптер. Выбор алгоритмов включает PPO, Clipped Importance Sampling Policy Optimization (CISPO) и несколько групповых оценщиков преимуществ (GRPO, RLOO).

Ключевая рекомендация — строить среду обучения как изолированный симулятор, а не использовать живые системы. Типичный запуск с batch size 128 и group size 8 даёт 1024 развертывания на шаг — такое количество запросов может вызвать сбои в продуктивном окружении. Amazon выделяет три паттерна симуляции: read-only (воспроизведение записанных ответов), deterministic (генерируемый ответ по правилам) и generative (LLM имитирует внешние системы). Пример из бенчмарка SOP-Bench (12 бизнес-доменов) показывает, что read-only инструменты подходят для чтения данных, а deterministic — для транзакций вроде возвратов.

Паттерн средыОписаниеПример использования
Read-onlyВоспроизведение записанных ответов по ключамЧтение информации о клиенте
DeterministicГенерация ответа по фиксированным правиламОбработка возврата товара
GenerativeLLM имитирует внешнюю системуСложные транзакции с недетерминированным результатом

Дизайн функции награды — вторая критическая точка. В многократном RL агент может обмануть награду, выполняя действия без достижения цели. Рекомендуется использовать внешнюю валидацию (набор labelled задач или судейскую модель) и отслеживать reward shaping и длину траектории. SageMaker ИИ MTRL предоставляет observability через MLflow, что позволяет видеть пошаговое поведение агента и метрики pass@k. Такой подход повышает надёжность агента и снижает риск нежелательных побочных эффектов, например, случайных возвратов или удаления записей.

Рекомендуется использовать изолированные симулированные среды для обучения, избегая воздействия на живые системы.