Запустить 35-миллиардную языковую модель на потребительской видеокарте с 12 ГБ памяти ещё год назад звучало как задача без решения. Qwen3.6 35B-A3B от Alibaba меняет этот расчёт — не за счёт магии, а за счёт архитектуры MoE (Mixture of Experts), которая принципиально иначе распределяет вычислительную нагрузку.

Обычные, так называемые плотные (Dense) модели при генерации каждого токена задействуют все свои параметры. MoE-модели устроены иначе: внутри каждого слоя находятся сотни специализированных подсетей — «экспертов», — но на каждом шаге активируется лишь небольшая их часть. У Qwen3.6 35B-A3B на каждом слое 256 экспертов, однако реально считаются только 8 маршрутизируемых плюс 1 общий. Это значит, что фактическая вычислительная нагрузка соответствует модели примерно на 3 млрд параметров, хотя суммарный вес модели — 35 млрд. Скорость генерации получается сопоставимой с небольшой 3B-моделью, а качество ответов — значительно выше за счёт специализации экспертов.

ПараметрЗначениеЗачем
Передача на GPU (ngl)40 (макс)Все слои пытаемся отдать GPU
Number of layers for MoE onto CPU40MoE-веса остаются в RAM
Flash AttentionВключёнЭкономия памяти под контекст
Размер пакета оценки8192Быстрая обработка контекста
Размер пула потоков ЦПУ10Чуть меньше макс для стабильности
Длина контекста65 536Баланс качество/память

Ключевой технический приём, позволивший уместить модель на RTX 4070 12 ГБ, — параметр ncmoe в llama.cpp. Логика здесь контринтуитивная: сначала параметром ngl=40 все слои отдаются на GPU, а затем ncmoe=40 возвращает именно MoE-веса обратно в оперативную память. На видеокарте остаются только лёгкие тензоры механизма внимания — около 6,2 ГБ VRAM. Тяжёлые веса экспертов (суммарно квант Q4_K_M весит 22 ГБ) лежат в 32 ГБ ОЗУ. Без этого трюка модель требовала все 12 ГБ видеопамяти и не запускалась стабильно.

Квант Q4_K_M весит 22 ГБ и умещается в 32 ГБ ОЗУ; видеопамять занимает лишь 6,2 ГБ из 12

Для запуска использовался LM Studio — графический интерфейс поверх llama.cpp. Из замеров: 347 токенов за 8,2 секунды, то есть 42 токена/сек при генерации. Для модели такого класса это комфортная скорость — текст появляется плавно, без заметных пауз в диалоге. Длина контекста выставлена в 65 536 токенов, Flash Attention включён для экономии памяти. Официальная документация Qwen рекомендует для задач с кодом temperature=0.6 и top_p=0.95 — эти значения совпали с дефолтом LM Studio и показали себя хорошо на практике.

Модель подключается к opencode — агентскому ИИ-инструменту для разработчиков — через OpenAI-совместимый API, который LM Studio поднимает на порту 1234. В конфигурационном файле opencode.json достаточно указать локальный адрес хоста. На тестовом проекте — микросервисная платформа на FastAPI и React — модель запустила агентский режим, выполнила 173 вызова инструментов, самостоятельно обошла всю кодовую базу и сформировала список из 23 улучшений с разбивкой по приоритетам. По запросу она создала детальные GitHub Issues через gh CLI: каждый issue содержал конкретные названия тест-кейсов, структуру файлов и критерии готовности — не абстрактные рекомендации, а готовый план работы.

По публичным benchmark-результатам Qwen3.6 35B-A3B набирает 73,4% на SWE-bench Verified (задачи по реальным багам в open-source проектах), 51,5% на Terminal-Bench 2.0 и 86,0% на GPQA Diamond. Эти цифры позволяют модели конкурировать с плотными моделями значительно большего размера. Для разработчика, который хочет агентский ИИ-ассистент без отправки кода на внешние серверы и без облачных расходов, сочетание RTX 4070 и 32 ГБ ОЗУ сейчас выглядит как минимально достаточная конфигурация.