CyberSecQwen-4B: специализированная 4B-модель для киберзащиты обходит 8B-конкурента

Hugging Face Blog·5 дней назад·3 минИсследованияКод

Модель CyberSecQwen-4B с 4 миллиардами параметров превысила результат Cisco Foundation-Sec-Instruct-8B на benchmark CTI-MCQ на 8,7 процентных пункта, сохранив 97,3% точности на задаче CVE→CWE при вдвое меньшем размере. Модель обучена на одном GPU AMD Instinct MI300X и распространяется под лицензией Apache 2.0.

Кратко

—На benchmark CTI-MCQ (2500 вопросов) CyberSecQwen-4B набрала 0,5868 против 0,4996 у Cisco Foundation-Sec-Instruct-8B — разрыв +8,7 п.п.
—На задаче CTI-RCM (1000 пар CVE→CWE) модель уступает конкуренту лишь 1,9 п.п., имея вдвое меньше параметров.
—Модель помещается на потребительскую видеокарту с 12 ГБ VRAM и может работать локально без доступа к внешним API.
—Обучение прошло на двух Apache-2.0-датасетах: реальных маппингах CVE→CWE от MITRE/NVD и синтетических Q&A по CVE-описаниям.
—Параллельно обучена модель-компаньон Gemma4Defense-2B на той же рецептуре — результаты сходятся в пределах 0,9 п.п., что подтверждает воспроизводимость подхода.

Видео по теме

Видео по теме · Источник: Hugging Face Blog

Глоссарий · 7 терминов▾

SOC: Security Operations Center — подразделение, которое круглосуточно мониторит инфраструктуру организации на предмет угроз и инцидентов безопасности.
CVE: Common Vulnerabilities and Exposures — стандартизированный идентификатор публично известной уязвимости в программном обеспечении.
CWE: Common Weakness Enumeration — классификатор типовых слабостей в коде и архитектуре ПО, которые могут приводить к уязвимостям.
CTI-Bench: Benchmark для оценки моделей на задачах Cyber Threat Intelligence: классификация угроз, маппинг CVE→CWE, ответы на вопросы по киберразведке.
LoRA: Low-Rank Adaptation — метод дообучения больших моделей, при котором обновляется лишь небольшое число дополнительных параметров, а не вся модель целиком.
FlashAttention-2: Оптимизированная реализация механизма внимания в трансформерах, снижающая потребление памяти и ускоряющая обучение за счёт эффективной работы с кэшем GPU.
benchmark: Стандартизированный набор задач и метрик для сравнения производительности моделей в одинаковых условиях.

Аналитики SOC, исследователи уязвимостей и специалисты по реверс-инжинирингу вредоносного ПО работают с данными, которые нельзя отправлять во внешние облачные сервисы: дампы учётных данных, образцы малвари, черновики CVE-отчётов. Именно эта проблема — конфиденциальность плюс стоимость API-вызовов плюс необходимость работы в изолированных сетях — стала отправной точкой для создания CyberSecQwen-4B.

Модель разработана в рамках AMD Developer Hackathon и обучена на одном GPU AMD Instinct MI300X с 192 ГБ памяти HBM3. Базой послужила Qwen3-4B-Instruct-2507 — на момент обучения лучшая инструктивно-настроенная модель 4B-класса с лицензией Apache 2.0. Авторы намеренно дообучали именно инструктивный чекпоинт, а не базовую модель: IT-версия уже содержит «формат-прайоры» для кратких ответов в формате multiple choice, которые важны для benchmark CTI-Bench. Проблема, однако, в том, что инструктивная настройка сама по себе снижает точность на MCQ-задачах — этот эффект описан и в публикациях Cisco для их собственной Foundation-Sec. CyberSecQwen-4B не только восстанавливает эту точность, но и превосходит исходный IT-чекпоинт: с 0,473 до 0,5868 на CTI-MCQ и с 0,519 до 0,6664 на CTI-RCM.

Метрика (CTI-Bench, n=5, temp 0.3)	CyberSecQwen-4B	Foundation-Sec-Instruct-8B	Разница
CTI-MCQ (2500 вопросов)	0,5868 ± 0,0029	0,4996	+8,7 п.п.
CTI-RCM (1000 пар CVE→CWE)	0,6664 ± 0,0023	0,6850	−1,9 п.п.
Число параметров	4B	8B	вдвое меньше

Для обучения использовались два датасета под лицензией Apache 2.0. Первый — реальные маппинги CVE→CWE за 2021 год из публичных записей MITRE и NVD. Перед обучением все записи, пересекающиеся с оценочным набором CTI-Bench, были исключены, что гарантирует честность benchmark-результатов: модель не видела тестовые примеры во время обучения. Второй датасет — синтетические Q&A в формате «аналитик-защитник», сгенерированные более мощной моделью-учителем на основе дедуплицированных CVE-описаний.

На задаче CTI-RCM (1000 пар CVE→CWE) модель уступает конкуренту лишь 1,9 п.п., имея вдвое меньше параметров.

Рецептура fine-tuning: LoRA с r=64 и alpha=64, dropout 0,05, скорость обучения 5e-5 с косинусным расписанием, 10 эпох, bf16, FlashAttention-2, длина последовательности 4096, батч 4. Оптимизатор — paged_adamw_8bit. Шаг обучения занимал около 7,85 секунды. Для сравнения: модель-компаньон Gemma4Defense-2B на той же рецептуре, но с базой Gemma-4-E2B-it, обучалась примерно в 1,6 раза медленнее — FlashAttention-2 не применима к глобальным слоям внимания Gemma из-за размера головы 512 (превышает бюджет разделяемой памяти MI300X).

Главный бенчмарк — CTI-Bench, использованный Cisco при публикации Foundation-Sec-Instruct-8B. На задаче CTI-MCQ (2500 вопросов по киберразведке) CyberSecQwen-4B набирает 0,5868 против 0,4996 у конкурента — преимущество 8,7 п.п. На CTI-RCM (1000 пар CVE→CWE) модель уступает 1,9 п.п. (0,6664 против 0,6850), то есть сохраняет 97,3% точности восьмимиллиардной модели при вдвое меньшем числе параметров. Для развёртывания это принципиально: CyberSecQwen-4B помещается на потребительскую карту с 12 ГБ VRAM, тогда как 8B-модель требует минимум 16–24 ГБ.

Чтобы проверить, является ли результат следствием рецептуры, а не специфики архитектуры Qwen, авторы обучили Gemma4Defense-2B на идентичных данных и гиперпараметрах. Результаты сошлись в пределах 0,9 п.п. на CTI-RCM, что подтверждает: подход воспроизводим на разных базовых моделях. CyberSecQwen-4B рекомендуется там, где лицензионные условия Gemma неприемлемы; Gemma4Defense-2B — когда критичен ещё меньший размер модели.

Для отрасли это означает смещение акцента с масштаба на специализацию: узкая задача киберразведки решается компактной моделью, которую можно запустить на локальном железе без компромиссов по точности. Автоматизация защиты — классификация CWE, разбор CVE, структурированный анализ угроз — перестаёт быть привилегией организаций с бюджетом на облачные API.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме