GLiNER Guard: энкодер для гардрейлов LLM с одним forward-проходом

Подготовлено редакцией Malakhov AI

Habr AI·19 мая·2 минРоссияКод

GLiNER Guard (GLiGuard) — энкодерная модель, выполняющая safety-классификацию и PII-детекцию за один forward-проход, заменяя стек из нескольких LLM-классификаторов. На A100 она обрабатывает 54 запроса в секунду против 1.3 у WildGuard, а на бенчмарках safety достигает 76.9 F1avg, обходя Llama-Guard 3.

Кратко

—GLiGuard заменяет несколько гардрейлов (safety, PII, toxicity) одной энкодерной моделью, снижая latency и стоимость.
—Omni-версия на базе mDeBERTa показывает 76.9 F1avg на Aegis, StrongReject и PolyGuard — лучший результат среди энкодеров.
—Bi-encoder вариант кэширует эмбеддинги лейблов, достигая 54 запрос/с на A100 против 1.3 у авторегрессионных моделей.
—На мультиязычном PII-бенчмарке OpenPII модель набирает 0.930 F2, опережая специализированные решения.
—Схема модерации настраивается через zero-shot: достаточно изменить лейблы и их описания без переобучения.

Глоссарий · 7 терминов▾

энкодер: Модель, которая преобразует входной текст в векторное представление за один проход, в отличие от авторегрессионных моделей, генерирующих токен за токеном.
гардрейлы: Механизмы безопасности для LLM-приложений, фильтрующие входные и выходные данные.
schema-driven подход: Метод, при котором модель обрабатывает запрос на основе переданной схемы (лейблов и описаний) без отдельного обучения под каждую задачу.
PII: Personally Identifiable Information — персональные данные (имена, адреса, номера телефонов и т.д.).
zero-shot: Способность модели выполнять задачу без предварительного обучения на примерах, опираясь только на описание.
bi-encoder: Архитектура, в которой лейблы и текст кодируются независимо, что позволяет кэшировать эмбеддинги лейблов для ускорения инференса.
forward-проход: Один цикл обработки данных через нейросеть от входа до выхода.

Разработчики LLM-приложений сталкиваются с проблемой: для безопасности на входе и выходе модели требуется не один классификатор, а целый стек. Safety moderation, PII-детекция, harm classifier, prompt-injection detector, toxicity BERT — каждый требует отдельного forward-прохода. В агентных приложениях с несколькими узлами количество инференсов растёт до 20 на один запрос пользователя.

GLiNER Guard (GLiGuard) предлагает другой подход: одна энкодерная модель, которая за один forward-проход определяет, нарушает ли текст политику безопасности, и находит персональные данные. Это стало возможным благодаря schema-driven архитектуре, унаследованной от GLiNER 2. Пользователь передаёт текст и список лейблов с опциональными описаниями, а модель скорит их через zero-shot. Политику модерации можно менять без переобучения — достаточно обновить лейблы.

Модель	Тип	Throughput (req/s)	F1 avg safety
GLiGuard bi-encoder	Энкодер	54	—
GLiGuard Omni	Энкодер	—	76.9
WildGuard	Авторегрессионная	1.3	—
Llama-Guard 3 8B	Авторегрессионная	—	ниже 76.9

Семейство GLiGuard включает три варианта. Лёгкие версии на базе mmBERT-small поддерживают 1800+ языков и быстры. Omni-вариант на mDeBERTa даёт лучшую zero-shot генерализацию за пределами safety-задач. Bi-encoder вариант кэширует эмбеддинги лейблов — полезно для фиксированных схем, когда цена энкодинга платится однократно.

Omni-версия на базе mDeBERTa показывает 76.9 F1avg на Aegis, StrongReject и PolyGuard — лучший результат среди энкодеров.

Ключевое преимущество — скорость. Авторегрессионные модели (Llama-Guard, WildGuard) декодят токен за токеном: на A100 с batch size 1 WildGuard выдаёт 1.3 запроса в секунду. GLiGuard в bi-encoder варианте — 54 запроса в секунду. Это разница между SOTA на бенчмарке и инженерным решением для продакшена.

По качеству GLiGuard Omni показывает 76.9 F1avg на наборе бенчмарков Aegis 2.0, StrongReject и PolyGuard — лучший результат среди всех протестированных энкодеров. Он обходит Llama-Guard 3 на 8B параметров. На StrongReject uni-encoder достигает 98.5 F1, Omni — 99.7. Топовые модели (YuFeng-XGuard, GPT-OSS-SafeGuard) впереди, но это reasoning-модели на 8–20B параметров.

С PII-детекцией ситуация сложнее. На индустриальном pii-masking-benchmark специализированные модели выигрывают: 0.887 против 0.804 у GLiGuard. Однако GLiGuard обходит privacy-filter от OpenAI (0.708) и Nemotron-PII (0.783). На мультиязычном OpenPII, покрывающем 23 языка, модель лидирует с 0.930 F2 — здесь вступает в силу mDeBERTa-бэкбон.

Для русскоязычных и мультиязычных проектов GLiGuard особенно интересен: mmBERT-small из коробки поддерживает тысячи языков, включая русский. Это снижает порог входа для компаний, которые не хотят собирать собственные датасеты для модерации.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Anthropic возвращает Claude Fable 5 на Amazon Bedrock с новыми ограничениями

Продолжить по разделам

GLiNER Guard: энкодер для гардрейлов LLM с одним forward-проходом

Кратко

Читать дальше

ИИ не заменяет разработчика: разница между написанием кода и программированием

В Astra Automation появился ИИ-ассистент для работы с документацией

Anthropic возвращает Claude Fable 5 на Amazon Bedrock с новыми ограничениями