Qwen3.6 35B-A3B на RTX 4070: локальный ИИ-ассистент для кода без облака

Habr AI·22 апр.·3 минРоссияКод

Модель с 35 миллиардами параметров запускается на видеокарте с 12 ГБ памяти и выдаёт 42 токена в секунду — это стало возможным благодаря архитектуре MoE и параметру ncmoe в llama.cpp, который перекладывает тяжёлые веса из видеопамяти в оперативную.

Кратко

—Qwen3.6 35B-A3B активирует только ~3 млрд параметров на токен из 35 млрд — за счёт архитектуры MoE
—Квант Q4_K_M весит 22 ГБ и умещается в 32 ГБ ОЗУ; видеопамять занимает лишь 6,2 ГБ из 12
—Скорость генерации — 42 токена/сек, что сопоставимо с небольшими моделями на 3 млрд параметров
—На тестовом проекте модель сделала 173 вызова инструментов, прочитала всю кодовую базу и предложила 23 улучшения
—SWE-bench Verified — 73,4%, GPQA Diamond — 86,0%; модель обгоняет плотные модели значительно большего размера

Глоссарий · 7 терминов▾

MoE (Mixture of Experts): Архитектура нейросети, в которой модель состоит из множества специализированных подсетей («экспертов»), но при обработке каждого токена активирует только небольшую их часть, снижая вычислительную нагрузку.
Dense-модель: Традиционная языковая модель, которая задействует все свои параметры при генерации каждого токена, в отличие от MoE-моделей.
llama.cpp: Open-source библиотека для запуска языковых моделей на потребительском железе, в том числе с частичной выгрузкой весов в оперативную память.
KV-кэш: Механизм кэширования промежуточных вычислений в трансформерных моделях, позволяющий не пересчитывать уже обработанный контекст при каждом новом сообщении.
Flash Attention: Оптимизированный алгоритм вычисления механизма внимания в трансформерах, снижающий потребление видеопамяти без потери качества.
SWE-bench Verified: Benchmark для оценки способности языковых моделей решать реальные баги из open-source репозиториев на GitHub.
opencode: Агентский ИИ-инструмент для разработчиков с открытым исходным кодом, который подключается к языковым моделям через OpenAI-совместимый API и умеет самостоятельно читать код, запускать команды и создавать задачи.

Запустить 35-миллиардную языковую модель на потребительской видеокарте с 12 ГБ памяти ещё год назад звучало как задача без решения. Qwen3.6 35B-A3B от Alibaba меняет этот расчёт — не за счёт магии, а за счёт архитектуры MoE (Mixture of Experts), которая принципиально иначе распределяет вычислительную нагрузку.

Обычные, так называемые плотные (Dense) модели при генерации каждого токена задействуют все свои параметры. MoE-модели устроены иначе: внутри каждого слоя находятся сотни специализированных подсетей — «экспертов», — но на каждом шаге активируется лишь небольшая их часть. У Qwen3.6 35B-A3B на каждом слое 256 экспертов, однако реально считаются только 8 маршрутизируемых плюс 1 общий. Это значит, что фактическая вычислительная нагрузка соответствует модели примерно на 3 млрд параметров, хотя суммарный вес модели — 35 млрд. Скорость генерации получается сопоставимой с небольшой 3B-моделью, а качество ответов — значительно выше за счёт специализации экспертов.

Параметр	Значение	Зачем
Передача на GPU (ngl)	40 (макс)	Все слои пытаемся отдать GPU
Number of layers for MoE onto CPU	40	MoE-веса остаются в RAM
Flash Attention	Включён	Экономия памяти под контекст
Размер пакета оценки	8192	Быстрая обработка контекста
Размер пула потоков ЦПУ	10	Чуть меньше макс для стабильности
Длина контекста	65 536	Баланс качество/память

Ключевой технический приём, позволивший уместить модель на RTX 4070 12 ГБ, — параметр ncmoe в llama.cpp. Логика здесь контринтуитивная: сначала параметром ngl=40 все слои отдаются на GPU, а затем ncmoe=40 возвращает именно MoE-веса обратно в оперативную память. На видеокарте остаются только лёгкие тензоры механизма внимания — около 6,2 ГБ VRAM. Тяжёлые веса экспертов (суммарно квант Q4_K_M весит 22 ГБ) лежат в 32 ГБ ОЗУ. Без этого трюка модель требовала все 12 ГБ видеопамяти и не запускалась стабильно.

Квант Q4_K_M весит 22 ГБ и умещается в 32 ГБ ОЗУ; видеопамять занимает лишь 6,2 ГБ из 12

Для запуска использовался LM Studio — графический интерфейс поверх llama.cpp. Из замеров: 347 токенов за 8,2 секунды, то есть 42 токена/сек при генерации. Для модели такого класса это комфортная скорость — текст появляется плавно, без заметных пауз в диалоге. Длина контекста выставлена в 65 536 токенов, Flash Attention включён для экономии памяти. Официальная документация Qwen рекомендует для задач с кодом temperature=0.6 и top_p=0.95 — эти значения совпали с дефолтом LM Studio и показали себя хорошо на практике.

Модель подключается к opencode — агентскому ИИ-инструменту для разработчиков — через OpenAI-совместимый API, который LM Studio поднимает на порту 1234. В конфигурационном файле opencode.json достаточно указать локальный адрес хоста. На тестовом проекте — микросервисная платформа на FastAPI и React — модель запустила агентский режим, выполнила 173 вызова инструментов, самостоятельно обошла всю кодовую базу и сформировала список из 23 улучшений с разбивкой по приоритетам. По запросу она создала детальные GitHub Issues через gh CLI: каждый issue содержал конкретные названия тест-кейсов, структуру файлов и критерии готовности — не абстрактные рекомендации, а готовый план работы.

По публичным benchmark-результатам Qwen3.6 35B-A3B набирает 73,4% на SWE-bench Verified (задачи по реальным багам в open-source проектах), 51,5% на Terminal-Bench 2.0 и 86,0% на GPQA Diamond. Эти цифры позволяют модели конкурировать с плотными моделями значительно большего размера. Для разработчика, который хочет агентский ИИ-ассистент без отправки кода на внешние серверы и без облачных расходов, сочетание RTX 4070 и 32 ГБ ОЗУ сейчас выглядит как минимально достаточная конфигурация.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме