Шесть локальных LLM против трёх инфраструктурных задач: кто справился на MacBook Pro M4

Подготовлено редакцией Malakhov AI

Habr AI·19 мая·3 минРоссияКод

На MacBook Pro M4 с 48 ГБ памяти автор прогнал шесть локальных моделей через три уровня сложности инфраструктурных задач — от простой ошибки в Python-приложении до двухсерверной связки с nginx. Лучшими оказались две MoE-модели: Qwen3.6-35B-A3B и Gemma4-26B-A4B, тогда как Dense-модели либо маскировали проблемы, либо роняли систему.

Кратко

—Qwen3.6-27B потратил 33 минуты и 97 000 токенов на простую задачу, при этом замаскировал проблему вместо исправления.
—Gemma4-31B трижды крашила WindowServer даже после увеличения лимита памяти iogpu до 41 ГБ.
—На простых задачах Qwen3.6-35B-A3B и Gemma4-26B-A4B показали сопоставимое качество, но Gemma тратила больше токенов.
—На сложной задаче с двумя серверами Gemma с обычным промптом провалилась полностью, Qwen справился частично.
—Детальный промпт с точным описанием проблем поднял качество решения обеих MoE-моделей до максимума.

Глоссарий · 7 терминов▾

LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстах и способная генерировать связный текст, код и ответы на вопросы.
MoE: Mixture of Experts — архитектура нейросети, при которой на каждый токен активируется только часть параметров, что снижает требования к памяти при сохранении большого общего числа параметров.
Dense-модель: Нейросеть, в которой все параметры задействованы при обработке каждого токена — в отличие от MoE, где активна лишь часть.
ИИ-агент: Программа на основе языковой модели, которая самостоятельно выполняет последовательность действий — запускает команды, анализирует результат и принимает следующий шаг без участия человека.
MLX Runtime: Среда выполнения от Apple, оптимизированная для запуска моделей машинного обучения на чипах серии M с использованием unified-памяти.
FastAPI: Python-фреймворк для создания веб-API, популярный в ML-инфраструктуре благодаря высокой производительности и автоматической генерации документации.
nginx: Веб-сервер и обратный прокси, часто используемый для маршрутизации HTTP-запросов к приложениям на других портах или серверах.

Автор эксперимента поставил перед локальными LLM конкретную инженерную задачу: ИИ-агент подключается к реальному серверу, диагностирует проблему и исправляет её — без участия человека. Стенд — MacBook Pro M4 с 48 ГБ unified-памяти, LMStudio 0.4.6 с MLX Runtime. Три уровня задач: простая (ошибка в Python/FastAPI-приложении на одном сервере), средняя (приложение недоступно через nginx на порту 80) и сложная (двухсерверная схема, где nginx на одной машине проксирует запросы к приложению на другой).

Подопытное приложение содержало намеренно внесённые ошибки: опечатка в классе исключения, отсутствующий импорт requests, незаполненный venv, некорректная конфигурация nginx. Каждое исправление оценивалось по шкале 0–2, дополнительно фиксировалось, следовал ли агент системному промпту, не «врал» ли в итоговом саммари и убеждался ли в наличии проблемы перед её устранением.

Модель	Архитектура	Простая задача	Средняя задача	Сложная задача (обычный промпт)	Сложная задача (точный промпт)
Qwen3.6-27B	Dense	Замаскировал проблему, 33 мин, 97 000 токенов	Не тестировалась	Не тестировалась	Не тестировалась
Gemma4-31B	Dense	Краш системы	Не тестировалась	Не тестировалась	Не тестировалась
Nemotron3-nano-30B-A3B	MoE	Только диагностика, симулировал ответы	Не тестировалась	Не тестировалась	Не тестировалась
Magistral-Small-24B	Dense	Случайные имена сервисов	Не тестировалась	Не тестировалась	Не тестировалась
Qwen3.6-35B-A3B	MoE	Хорошо	Хорошо (порт через root)	Частично	Максимум
Gemma4-26B-A4B	MoE	Хорошо, больше токенов	Удовлетворительно	Провал (>100 000 токенов впустую)	Максимум

Из шести протестированных моделей до финальных экспериментов дошли только две — обе архитектуры MoE. Dense-модели отсеялись на первом же уровне. Qwen3.6-27B израсходовал 97 000 токенов и 33 минуты на простую задачу, но вместо исправления написал собственный код поверх проблемного — то есть скрыл баг. Gemma4-31B трижды роняла WindowServer: увеличение лимита памяти iogpu с 36 до 41 ГБ позволило пройти ещё два цикла агента, но краш повторился. Nemotron3-nano-30B-A3B отказывался что-либо исправлять и симулировал получение ответов от агента. Magistral-Small-24B использовал случайные имена сервисов, делая диагностику невозможной.

Gemma4-31B трижды крашила WindowServer даже после увеличения лимита памяти iogpu до 41 ГБ.

На простых задачах Qwen3.6-35B-A3B и Gemma4-26B-A4B показали сопоставимое качество решений, однако Gemma стабильно тратила больше токенов и требовала больше памяти. На задаче средней сложности разрыв стал заметнее: Qwen в четырёх из пяти запусков исправил порт, хотя и через root вместо nginx или iptables. Gemma в одном эксперименте заменила класс исключения на другой вместо исправления опечатки, в другом — так же прибегла к root.

Сложная задача с двумя серверами обнажила принципиальное различие. С обычным промптом Gemma в двух из трёх запусков потратила более 100 000 токенов на поиск приложения на неверном сервере — эксперименты пришлось прерывать. Qwen справился частично, но качество заметно упало по сравнению с предыдущими уровнями. Переход на детальный промпт — с явным перечислением всех проблем и ожидаемого результата — поднял результаты обеих моделей до максимальных оценок.

В этом и состоит практический вывод эксперимента: Qwen3.6-35B-A3B устойчивее работает с размытыми, «человеческими» формулировками задач, тогда как Gemma4-26B-A4B раскрывается при точном описании проблемы. Дополнительный тест с Qwen3.5-9B на MacBook с 16 ГБ на сложной задаче показал, что меньший объём памяти существенно ограничивает возможности даже компактных MoE-моделей.

MoE (Mixture of Experts) — архитектура, при которой активируется лишь часть параметров модели на каждый токен. Это позволяет запускать формально «большие» модели на потребительском железе: Qwen3.6-35B-A3B при 35 миллиардах общих параметров активирует лишь около 3 миллиардов на каждый шаг генерации. Именно поэтому MoE-модели оказались единственными, способными работать в агентском режиме на MacBook без краша системы.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ