Автор эксперимента поставил перед локальными LLM конкретную инженерную задачу: ИИ-агент подключается к реальному серверу, диагностирует проблему и исправляет её — без участия человека. Стенд — MacBook Pro M4 с 48 ГБ unified-памяти, LMStudio 0.4.6 с MLX Runtime. Три уровня задач: простая (ошибка в Python/FastAPI-приложении на одном сервере), средняя (приложение недоступно через nginx на порту 80) и сложная (двухсерверная схема, где nginx на одной машине проксирует запросы к приложению на другой).

Подопытное приложение содержало намеренно внесённые ошибки: опечатка в классе исключения, отсутствующий импорт requests, незаполненный venv, некорректная конфигурация nginx. Каждое исправление оценивалось по шкале 0–2, дополнительно фиксировалось, следовал ли агент системному промпту, не «врал» ли в итоговом саммари и убеждался ли в наличии проблемы перед её устранением.

МодельАрхитектураПростая задачаСредняя задачаСложная задача (обычный промпт)Сложная задача (точный промпт)
Qwen3.6-27BDenseЗамаскировал проблему, 33 мин, 97 000 токеновНе тестироваласьНе тестироваласьНе тестировалась
Gemma4-31BDenseКраш системыНе тестироваласьНе тестироваласьНе тестировалась
Nemotron3-nano-30B-A3BMoEТолько диагностика, симулировал ответыНе тестироваласьНе тестироваласьНе тестировалась
Magistral-Small-24BDenseСлучайные имена сервисовНе тестироваласьНе тестироваласьНе тестировалась
Qwen3.6-35B-A3BMoEХорошоХорошо (порт через root)ЧастичноМаксимум
Gemma4-26B-A4BMoEХорошо, больше токеновУдовлетворительноПровал (>100 000 токенов впустую)Максимум

Из шести протестированных моделей до финальных экспериментов дошли только две — обе архитектуры MoE. Dense-модели отсеялись на первом же уровне. Qwen3.6-27B израсходовал 97 000 токенов и 33 минуты на простую задачу, но вместо исправления написал собственный код поверх проблемного — то есть скрыл баг. Gemma4-31B трижды роняла WindowServer: увеличение лимита памяти iogpu с 36 до 41 ГБ позволило пройти ещё два цикла агента, но краш повторился. Nemotron3-nano-30B-A3B отказывался что-либо исправлять и симулировал получение ответов от агента. Magistral-Small-24B использовал случайные имена сервисов, делая диагностику невозможной.

Gemma4-31B трижды крашила WindowServer даже после увеличения лимита памяти iogpu до 41 ГБ.

На простых задачах Qwen3.6-35B-A3B и Gemma4-26B-A4B показали сопоставимое качество решений, однако Gemma стабильно тратила больше токенов и требовала больше памяти. На задаче средней сложности разрыв стал заметнее: Qwen в четырёх из пяти запусков исправил порт, хотя и через root вместо nginx или iptables. Gemma в одном эксперименте заменила класс исключения на другой вместо исправления опечатки, в другом — так же прибегла к root.

Сложная задача с двумя серверами обнажила принципиальное различие. С обычным промптом Gemma в двух из трёх запусков потратила более 100 000 токенов на поиск приложения на неверном сервере — эксперименты пришлось прерывать. Qwen справился частично, но качество заметно упало по сравнению с предыдущими уровнями. Переход на детальный промпт — с явным перечислением всех проблем и ожидаемого результата — поднял результаты обеих моделей до максимальных оценок.

В этом и состоит практический вывод эксперимента: Qwen3.6-35B-A3B устойчивее работает с размытыми, «человеческими» формулировками задач, тогда как Gemma4-26B-A4B раскрывается при точном описании проблемы. Дополнительный тест с Qwen3.5-9B на MacBook с 16 ГБ на сложной задаче показал, что меньший объём памяти существенно ограничивает возможности даже компактных MoE-моделей.

MoE (Mixture of Experts) — архитектура, при которой активируется лишь часть параметров модели на каждый токен. Это позволяет запускать формально «большие» модели на потребительском железе: Qwen3.6-35B-A3B при 35 миллиардах общих параметров активирует лишь около 3 миллиардов на каждый шаг генерации. Именно поэтому MoE-модели оказались единственными, способными работать в агентском режиме на MacBook без краша системы.