Аналитики SOC, исследователи уязвимостей и специалисты по реверс-инжинирингу вредоносного ПО работают с данными, которые нельзя отправлять во внешние облачные сервисы: дампы учётных данных, образцы малвари, черновики CVE-отчётов. Именно эта проблема — конфиденциальность плюс стоимость API-вызовов плюс необходимость работы в изолированных сетях — стала отправной точкой для создания CyberSecQwen-4B.

Модель разработана в рамках AMD Developer Hackathon и обучена на одном GPU AMD Instinct MI300X с 192 ГБ памяти HBM3. Базой послужила Qwen3-4B-Instruct-2507 — на момент обучения лучшая инструктивно-настроенная модель 4B-класса с лицензией Apache 2.0. Авторы намеренно дообучали именно инструктивный чекпоинт, а не базовую модель: IT-версия уже содержит «формат-прайоры» для кратких ответов в формате multiple choice, которые важны для benchmark CTI-Bench. Проблема, однако, в том, что инструктивная настройка сама по себе снижает точность на MCQ-задачах — этот эффект описан и в публикациях Cisco для их собственной Foundation-Sec. CyberSecQwen-4B не только восстанавливает эту точность, но и превосходит исходный IT-чекпоинт: с 0,473 до 0,5868 на CTI-MCQ и с 0,519 до 0,6664 на CTI-RCM.

Метрика (CTI-Bench, n=5, temp 0.3)CyberSecQwen-4BFoundation-Sec-Instruct-8BРазница
CTI-MCQ (2500 вопросов)0,5868 ± 0,00290,4996+8,7 п.п.
CTI-RCM (1000 пар CVE→CWE)0,6664 ± 0,00230,6850−1,9 п.п.
Число параметров4B8Bвдвое меньше

Для обучения использовались два датасета под лицензией Apache 2.0. Первый — реальные маппинги CVE→CWE за 2021 год из публичных записей MITRE и NVD. Перед обучением все записи, пересекающиеся с оценочным набором CTI-Bench, были исключены, что гарантирует честность benchmark-результатов: модель не видела тестовые примеры во время обучения. Второй датасет — синтетические Q&A в формате «аналитик-защитник», сгенерированные более мощной моделью-учителем на основе дедуплицированных CVE-описаний.

На задаче CTI-RCM (1000 пар CVE→CWE) модель уступает конкуренту лишь 1,9 п.п., имея вдвое меньше параметров.

Рецептура fine-tuning: LoRA с r=64 и alpha=64, dropout 0,05, скорость обучения 5e-5 с косинусным расписанием, 10 эпох, bf16, FlashAttention-2, длина последовательности 4096, батч 4. Оптимизатор — paged_adamw_8bit. Шаг обучения занимал около 7,85 секунды. Для сравнения: модель-компаньон Gemma4Defense-2B на той же рецептуре, но с базой Gemma-4-E2B-it, обучалась примерно в 1,6 раза медленнее — FlashAttention-2 не применима к глобальным слоям внимания Gemma из-за размера головы 512 (превышает бюджет разделяемой памяти MI300X).

Главный бенчмарк — CTI-Bench, использованный Cisco при публикации Foundation-Sec-Instruct-8B. На задаче CTI-MCQ (2500 вопросов по киберразведке) CyberSecQwen-4B набирает 0,5868 против 0,4996 у конкурента — преимущество 8,7 п.п. На CTI-RCM (1000 пар CVE→CWE) модель уступает 1,9 п.п. (0,6664 против 0,6850), то есть сохраняет 97,3% точности восьмимиллиардной модели при вдвое меньшем числе параметров. Для развёртывания это принципиально: CyberSecQwen-4B помещается на потребительскую карту с 12 ГБ VRAM, тогда как 8B-модель требует минимум 16–24 ГБ.

Чтобы проверить, является ли результат следствием рецептуры, а не специфики архитектуры Qwen, авторы обучили Gemma4Defense-2B на идентичных данных и гиперпараметрах. Результаты сошлись в пределах 0,9 п.п. на CTI-RCM, что подтверждает: подход воспроизводим на разных базовых моделях. CyberSecQwen-4B рекомендуется там, где лицензионные условия Gemma неприемлемы; Gemma4Defense-2B — когда критичен ещё меньший размер модели.

Для отрасли это означает смещение акцента с масштаба на специализацию: узкая задача киберразведки решается компактной моделью, которую можно запустить на локальном железе без компромиссов по точности. Автоматизация защиты — классификация CWE, разбор CVE, структурированный анализ угроз — перестаёт быть привилегией организаций с бюджетом на облачные API.