Дообучение с подкреплением (Reinforcement Fine-Tuning, RFT) стало стандартным способом выравнивания языковых моделей под конкретные задачи. Классический вариант — RLVR — использует верифицируемые награды: код проверяет, правильно ли модель решила задачу. Но когда критерии качества размыты — например, «ответ должен звучать профессионально и цитировать авторитетные источники» — написать такую проверку вручную почти невозможно. Именно здесь появляется RLAIF: вместо кода ответы оценивает отдельная языковая модель.

Модель-судья работает принципиально иначе, чем числовая метрика. Она анализирует ответ сразу по нескольким осям — корректность, тон, безопасность, соответствие вопросу — и возвращает структурированную оценку с обоснованием. Фраза вроде «Ответ A ссылается на рецензируемые исследования» даёт разработчику конкретную точку для итерации, которую статическая функция награды предоставить не может. AWS применяет этот подход к семейству Amazon Nova и описывает шесть шагов его реализации.

КритерийРубрикальный судьяПредпочтительный судья
Метод оценкиЧисловой балл за один ответ по заданным критериямСравнение двух ответов, выбор лучшего
Тип измеренияАбсолютное качествоОтносительное качество через сравнение
Когда применятьЕсть чёткие, измеримые критерии (точность, безопасность)Есть сравнительные данные или образцы ответов
Требования к даннымТолько тщательный промпт-инжинирингНужен хотя бы один эталонный ответ для сравнения
ОбобщаемостьЛучше для нестандартных данных, меньше смещенияЗависит от качества эталонных ответов
РекомендацияОтправная точка при отсутствии данных для сравненияИспользовать при наличии сравнительных данных

Первый шаг — выбор архитектуры судьи. Существует два режима: рубрикальный (rubric-based) и предпочтительный (preference-based). Рубрикальный присваивает числовой балл одному ответу по заранее определённым критериям; предпочтительный сравнивает два ответа и выбирает лучший. Рубрикальный подход рекомендован как отправная точка, если нет готовых данных для сравнения. AWS особо советует булеву (да/нет) систему оценки вместо шкалы от 1 до 10: она стабильнее и меньше зависит от случайных колебаний в поведении судьи.

Модель-судья объясняет свои оценки через обоснования, что ускоряет итерации и помогает выявлять скрытые ошибки.

Five-stage AI model training and deployment pipeline diagram showing Setup, Training, and Deployment phases
Five-stage AI model training and deployment pipeline diagram showing Setup, Training, and Deployment phases · Источник: AWS Machine Learning Blog

Второй шаг — формулировка критериев оценки. Для предпочтительного судьи достаточно чёткого промпта: «Предпочитай ответы, которые цитируют авторитетные источники, используют доступный язык и прямо отвечают на вопрос пользователя». Для рубрикального нужно прописать конкретные, наблюдаемые признаки прохождения каждого критерия.

Третий шаг — выбор модели-судьи. AWS предлагает двухуровневую схему. Для сложных задач с многомерной оценкой — тяжёлые модели: Amazon Nova Pro, Claude Opus, Claude Sonnet. Для типовых доменов вроде математики или кода — лёгкие: Amazon Nova 2 Lite, Claude Haiku. Разница не только в качестве, но и в стоимости: лёгкие модели существенно дешевле при сопоставимой надёжности на простых задачах.

Четвёртый шаг — проектирование промпта судьи. Он должен возвращать структурированный, машиночитаемый вывод (JSON), содержать явные правила для каждого измерения и обрабатывать граничные случаи — например, «если ответ пустой, присвоить 0».

Пятый шаг — согласование критериев судьи с продуктовыми метриками. Функция награды должна отражать те же показатели, по которым модель будет оцениваться в продакшне. AWS рекомендует сначала определить пороговые значения для точности и безопасности, затем сопоставить каждый критерий с измерением судьи и проверить корреляцию на репрезентативных примерах.

AWS IAM console showing role permissions with AWSLambdaBasicExecutionRole and BedrockAccess policies attached
AWS IAM console showing role permissions with AWSLambdaBasicExecutionRole and BedrockAccess policies attached · Источник: AWS Machine Learning Blog

Шестой шаг — построение отказоустойчивой Lambda-функции. Производственные системы RFT выполняют тысячи оценок за один шаг обучения. AWS советует не полагаться исключительно на LLM-судью: перед дорогостоящим вызовом модели стоит запускать быстрые детерминированные проверки — валидацию JSON-структуры, штрафы за длину, проверку языка ответа, фильтры запрещённого контента. Для устойчивости к сбоям рекомендуется экспоненциальный backoff при ошибках API, параллельные вызовы через ThreadPoolExecutor, таймаут Lambda в 15 минут и provisioned concurrency около 100 экземпляров. При неустранимых ошибках функция должна возвращать нейтральную награду (0.5), а не ломать обучение.

Подход RLAIF не нов — он восходит к работам Anthropic по Constitutional AI и более ранним исследованиям по RLHF, где человеческих оценщиков заменяли моделью. AWS адаптирует эту идею под собственную инфраструктуру Bedrock и предлагает конкретный инженерный рецепт, пригодный для команд, которые хотят выравнивать модели без масштабной разметки данных.