Gemma 4 против Qwen 3.6 и Qwen Coder: тест локальных LLM на RTX 5070 Ti

Habr AI·3 дня назад·3 минРоссияКод

На домашней RTX 5070 Ti с 16 ГБ видеопамяти Gemma 4 обошла Qwen Coder в задачах программирования — при том что формально уступает конкурентам по числу общих параметров. Автор теста выяснил, что режим мышления у Qwen-моделей снижает точность следования инструкциям, а «продвинутое» квантование UD-Q4_K_XL деградирует сильнее классического Q4_K_M.

Кратко

—Gemma 4 (26B-A4B, 15,5 ГБ) обошла Qwen Coder в реальных задачах программирования на железе с 16 ГБ VRAM.
—Формат MXFP4 для Qwen 3.5/3.6 признан нестабильным командой Unsloth и исключён из официальных сборок.
—UD-Q4_K_XL деградирует на 9,7% от эталона Q8_0, тогда как классический Q4_K_M — лишь на 2,1%.
—Все три модели используют архитектуру MoE: в вычислениях одновременно задействована лишь часть экспертов, что позволяет запускать их на 16 ГБ VRAM.
—llama.cpp из исходников даёт до 30% прироста скорости по сравнению с LM Studio или Ollama на том же железе.

Глоссарий · 7 терминов▾

MoE (Mixture of Experts): Архитектура нейросети, в которой модель содержит множество специализированных блоков («экспертов»), и для каждого запроса активируется лишь их часть — это снижает вычислительную нагрузку по сравнению с обычными «плотными» моделями.
Квантование: Сжатие весов нейросети путём замены 16-битных чисел с плавающей запятой на 4-битные или 8-битные целые, что уменьшает объём занимаемой памяти ценой небольшой потери точности.
Перплексия (PPL): Метрика качества языковой модели: чем ниже значение, тем лучше модель предсказывает следующий токен; используется для сравнения разных форматов квантования относительно эталона.
VRAM: Видеопамять — оперативная память, встроенная в GPU; именно она ограничивает, какие модели можно запустить локально без выгрузки в системную RAM.
Offload: Выгрузка части слоёв модели из видеопамяти в системную оперативную память, позволяющая запускать модели, которые не помещаются в VRAM целиком.
MXFP4: Формат квантования, сохраняющий структуру числа с плавающей запятой 4 бит; нативно поддерживается тензорными ядрами GPU архитектуры Blackwell без программной эмуляции.
KV-кеш: Область видеопамяти, в которой хранятся промежуточные вычисления для обработки контекста; чем длиннее контекст, тем больше памяти требует KV-кеш.

Три локальные языковые модели — Gemma 4 (26B-A4B), Qwen 3.6 (35B-A3B) и Qwen Coder (30B-A3B) — прошли сравнительное тестирование на домашнем ПК с RTX 5070 Ti и 16 ГБ видеопамяти. Автор теста, Вячеслав, поставил задачу не воспроизвести синтетические benchmark-результаты, а проверить модели в реальных сценариях: написание работающего кода, рефакторинг файлов с багами, извлечение данных из HTML. Победителем в задачах программирования вышла Gemma 4 — несмотря на меньшее суммарное число параметров.

Все три модели построены на архитектуре Mixture of Experts (MoE). В отличие от «плотных» сетей, где каждый запрос проходит через все слои, MoE активирует лишь часть специализированных блоков-«экспертов» для каждого токена. Это даёт два практических преимущества для домашнего железа: снижение вычислительной нагрузки и возможность выгружать неактивные эксперты в оперативную память, освобождая видеопамять под контекст. Из-за этого сравнивать MoE-модели по общему числу параметров бессмысленно — важнее смотреть на активные параметры. У Gemma 4 их 4B при 26B общих, у Qwen 3.6 и Qwen Coder — по 3B при 35B и 30B соответственно.

Модель	Файл	Размер на диске	Всего параметров	Активных параметров	Формат квантования
Qwen Coder	Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf	17,3 ГБ	30B	~3B	Q4_K_M
Qwen 3.6	Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf	19,9 ГБ	35B	~3B	Q4_K_M
Gemma 4	gemma-4-26B-A4B-it-MXFP4_MOE.gguf	15,5 ГБ	26B	~4B	MXFP4_MOE

Отдельный сюжет — выбор формата квантования. Квантование сжимает веса модели: вместо 16-битных чисел с плавающей запятой хранятся 4-битные целые, что кратно снижает потребление памяти. Для Gemma 4 был выбран формат MXFP4_MOE — нативный для архитектуры Blackwell, с прямым маппингом на тензорные ядра GPU без эмуляции. Для Qwen-моделей этот формат недоступен: команда Unsloth официально исключила MXFP4-слои из сборок Qwen 3.5/3.6 из-за аномалий в вычислениях — модели выдавали некорректные ответы или падали.

Формат MXFP4 для Qwen 3.5/3.6 признан нестабильным командой Unsloth и исключён из официальных сборок.

Для Qwen автор сравнил два оставшихся варианта: классический Q4_K_M и «продвинутый» UD-Q4_K_XL от Unsloth Dynamic 2.0. Последний перед сжатием прогоняет модель через 300 тысяч — 1,5 миллиона токенов реальных диалогов, определяет чувствительные слои и оставляет их в 8 или 16 битах. Звучит убедительно, но метрики перплексии на WikiText-2 дают обратную картину: Q4_K_M отклоняется от эталона Q8_0 на 2,1%, тогда как UD-Q4_K_XL — на 9,7%, экономя при этом лишь 1 ГБ на диске. В профильных обсуждениях отмечают, что Unsloth-кванты исторически проседают именно на MoE-архитектурах со сложной маршрутизацией экспертов.

Ни одна из трёх моделей не помещается целиком в 16 ГБ видеопамяти даже после квантования: Gemma 4 занимает 15,5 ГБ, Qwen 3.6 — 19,9 ГБ, Qwen Coder — 17,3 ГБ. Решение — offload через llama.cpp: часть слоёв выгружается в системную оперативную память. Автор настойчиво рекомендует собирать llama.cpp из исходников под конкретную архитектуру GPU вместо использования LM Studio или Ollama — по его оценке, удобство «одного клика» обходится потерей до 30% скорости генерации. При 16 ГБ VRAM и моделях «на грани» это принципиально.

Ещё один вывод касается режима мышления (thinking mode) у Qwen-моделей: его включение ухудшает точность следования инструкциям. При этом скорость генерации у Qwen Coder в режиме thinking даже немного выросла — с 51,3 до 53,0 токена в секунду, — но качество выполнения конкретных задач снизилось. Это расходится с распространённым представлением о том, что «больше размышлений — лучше результат».

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Читать также

Habr AI·4 часа назад

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Россия

CNews·18 часов назад

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска

Стартапы

RB.ru·2 дня назад

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска

Продолжить по разделам