Amazon опубликовала руководство по использованию своей мультимодальной модели Amazon Nova 2 Lite для модерации пользовательского контента. Модель, оптимизированная для низкой задержки и высокой пропускной способности, работает на платформе Amazon Bedrock. Ключевая особенность подхода — использование структурированных промптов в формате XML или JSON, которые позволяют задавать политики модерации без необходимости дообучать модель.

Проблема модерации контента в масштабе — баланс между выявлением нарушений и минимизацией ложных срабатываний. Каждая организация определяет собственные политики, поэтому универсальный классификатор редко подходит. Предложенный Amazon метод позволяет менять политики редактированием промпта, а не переобучением модели. В основе таксономии — стандарт MLCommons AILuminate Assessment Standard v1.1, включающий 12 категорий опасностей, разделённых на три группы: физические, нефизические и контекстуальные угрозы. Например, категории "Насильственные преступления" (физическая группа) и "Ненависть" (нефизическая группа).

Группа опасностиКатегория
PhysicalViolent Crimes
Non-PhysicalNon-Violent Crimes
PhysicalSuicide and Self-Harm
Non-PhysicalHate
ContextualSpecialized Advice
Non-PhysicalPrivacy

Пайплайн модерации состоит из четырёх этапов: вход пользовательского контента, сборка промпта (с системной ролью, определениями политик и опциональными few-shot примерами), отправка запроса к модели Amazon Nova 2 Lite и обработка ответа. Модель возвращает флаг нарушения, список нарушенных категорий и пояснение. Рекомендуемые параметры инференса: температура 0.7 и top-p 0.9 (nucleus sampling). Для полностью детерминированного вывода можно снизить температуру до 0, но авторы отмечают, что значения по умолчанию хорошо работают на разнообразном контенте. В высоконагруженных системах рекомендуется отключать режим рассуждений (reasoning mode) для снижения задержки и стоимости.

Модерация строится на структурированных или свободных промптах, что позволяет менять политики без переобучения модели.

Amazon Nova 2 Lite для модерации контента: структурированные промпты и бенчмарки
· Источник: AWS Machine Learning Blog

Amazon также провела бенчмаркинг способностей Amazon Nova 2 Lite к модерации контента на трёх публичных датасетах в сравнении с несколькими foundation models. Конкретные результаты в статье не раскрываются, но сам факт тестирования подтверждает пригодность модели для этой задачи. Структурированные промпты в XML или JSON упрощают интеграцию с автоматизированными системами, а свободные промпты дают гибкость для нестандартных сценариев. Few-shot обучение в промпте позволяет модели усваивать ожидаемый формат ответа на нескольких примерах.