Когда задача — не чат-бот, а конвейер обработки инфраструктурных алертов, выбор языковой модели превращается в инженерную задачу с конкретными ограничениями. Автор цикла статей на Habr строит self-hosted систему анализа событий Zabbix на домашнем сервере: устаревший CPU, никакого выделенного GPU, Docker внутри виртуальной машины, рядом работают другие контейнеры.

Главное требование к модели — не интеллект в широком смысле, а дисциплина. Система должна проводить триаж событий уровня Warning и ниже, формировать краткие диагностические рекомендации и выполнять корреляцию алертов там, где нет готовой детерминированной логики. Модель, которая хорошо пишет эссе, но не держит формат JSON-ответа от запроса к запросу, для такой задачи бесполезна.

КритерийСоответствие Qwen3.5-4B
Локальный запуск без облачных APIСоответствует — готовый тег qwen3.5:4b в Ollama, запуск на localhost:11434
Качество следования точным инструкциямЧастично соответствует — линейка позиционируется как «utility and performance»
Скромные требования к ресурсамСоответствует — 4B параметров, работает без GPU
Скорость инференсаПриемлемо для событийного пайплайна на домашнем сервере
Предсказуемость поведенияСоответствует — модель не склонна к длинным рассуждениям
Работа в Ollama без кастомных сборокСоответствует — стандартный тег, без конвертации
Разумная квантизацияСоответствует — доступны квантизированные версии
Лицензия и доступностьСоответствует — открытый доступ для локального использования

Автор сформулировал восемь критериев отбора. Первый и принципиальный — локальный запуск без внешних API: алерты содержат чувствительные данные (IP-адреса, имена хостов), а архитектура изначально строилась с минимальной зависимостью от облачных сервисов. Второй критерий — качество следования точным инструкциям при коротких запросах, а не максимальная общая мощность. Третий — скромные требования к ресурсам. Четвёртый — скорость инференса: если триаж занимает десятки минут, очередь растёт, а результат теряет актуальность ещё до того, как его прочитают. Пятый — предсказуемость: модель не должна «уходить в рассуждения» или менять структуру ответа без причины. Шестой — нормальная работа в Ollama без кастомных сборок и конвертаций. Седьмой — разумная квантизация.

Ключевые критерии отбора: скорость инференса, предсказуемость формата ответа, разумная квантизация и отсутствие зависимости от внешних API.

Квантизация заслуживает отдельного пояснения. Это метод сжатия весов модели до типов данных с меньшей точностью — например, с float32 до int4 или int8. Результат: меньше памяти, выше скорость инференса, но потенциально ниже стабильность следования формату. Для домашнего сервера квантизация неизбежна; вопрос лишь в том, насколько модель сохраняет полезность после сжатия. Восьмой критерий — лицензия: правовая возможность запускать модель локально и использовать её в дальнейших проектах.

По совокупности критериев выбор пал на Qwen3.5-4B. Модель семейства Qwen разрабатывается командой Alibaba и позиционируется как «utility and performance» — то есть ориентирована на прикладные задачи, а не на академические benchmark'и. Для неё в Ollama есть готовый тег qwen3.5:4b, запуск одной командой, локальный API на localhost:11434. К моменту публикации статьи вышла Qwen3.6, однако основное улучшение там касается генерации кода, а версии на 4B параметров в новом семействе нет — для ресурсоограниченного домашнего стенда это принципиально.

Отдельного внимания заслуживает архитектурный подход автора: весь код проекта на 99% написан самой нейросетью, но только после того, как человек сформулировал техническое задание, выбрал модель и спроектировал высокоуровневую архитектуру. Такая последовательность — ТЗ, критерии, HLD, LLD, реализация — позволила нейросети работать внутри заранее заданных ограничений, не подменяя архитектурное мышление. Детали реализации и результаты автор обещает раскрыть в третьей и четвёртой частях цикла.