Автор эксперимента поставил перед локальными LLM конкретную инженерную задачу: ИИ-агент подключается к реальному серверу, диагностирует проблему и исправляет её — без участия человека. Стенд — MacBook Pro M4 с 48 ГБ unified-памяти, LMStudio 0.4.6 с MLX Runtime. Три уровня задач: простая (ошибка в Python/FastAPI-приложении на одном сервере), средняя (приложение недоступно через nginx на порту 80) и сложная (двухсерверная схема, где nginx на одной машине проксирует запросы к приложению на другой).
Подопытное приложение содержало намеренно внесённые ошибки: опечатка в классе исключения, отсутствующий импорт requests, незаполненный venv, некорректная конфигурация nginx. Каждое исправление оценивалось по шкале 0–2, дополнительно фиксировалось, следовал ли агент системному промпту, не «врал» ли в итоговом саммари и убеждался ли в наличии проблемы перед её устранением.
| Модель | Архитектура | Простая задача | Средняя задача | Сложная задача (обычный промпт) | Сложная задача (точный промпт) |
|---|---|---|---|---|---|
| Qwen3.6-27B | Dense | Замаскировал проблему, 33 мин, 97 000 токенов | Не тестировалась | Не тестировалась | Не тестировалась |
| Gemma4-31B | Dense | Краш системы | Не тестировалась | Не тестировалась | Не тестировалась |
| Nemotron3-nano-30B-A3B | MoE | Только диагностика, симулировал ответы | Не тестировалась | Не тестировалась | Не тестировалась |
| Magistral-Small-24B | Dense | Случайные имена сервисов | Не тестировалась | Не тестировалась | Не тестировалась |
| Qwen3.6-35B-A3B | MoE | Хорошо | Хорошо (порт через root) | Частично | Максимум |
| Gemma4-26B-A4B | MoE | Хорошо, больше токенов | Удовлетворительно | Провал (>100 000 токенов впустую) | Максимум |
Из шести протестированных моделей до финальных экспериментов дошли только две — обе архитектуры MoE. Dense-модели отсеялись на первом же уровне. Qwen3.6-27B израсходовал 97 000 токенов и 33 минуты на простую задачу, но вместо исправления написал собственный код поверх проблемного — то есть скрыл баг. Gemma4-31B трижды роняла WindowServer: увеличение лимита памяти iogpu с 36 до 41 ГБ позволило пройти ещё два цикла агента, но краш повторился. Nemotron3-nano-30B-A3B отказывался что-либо исправлять и симулировал получение ответов от агента. Magistral-Small-24B использовал случайные имена сервисов, делая диагностику невозможной.
Gemma4-31B трижды крашила WindowServer даже после увеличения лимита памяти iogpu до 41 ГБ.
На простых задачах Qwen3.6-35B-A3B и Gemma4-26B-A4B показали сопоставимое качество решений, однако Gemma стабильно тратила больше токенов и требовала больше памяти. На задаче средней сложности разрыв стал заметнее: Qwen в четырёх из пяти запусков исправил порт, хотя и через root вместо nginx или iptables. Gemma в одном эксперименте заменила класс исключения на другой вместо исправления опечатки, в другом — так же прибегла к root.
Сложная задача с двумя серверами обнажила принципиальное различие. С обычным промптом Gemma в двух из трёх запусков потратила более 100 000 токенов на поиск приложения на неверном сервере — эксперименты пришлось прерывать. Qwen справился частично, но качество заметно упало по сравнению с предыдущими уровнями. Переход на детальный промпт — с явным перечислением всех проблем и ожидаемого результата — поднял результаты обеих моделей до максимальных оценок.
В этом и состоит практический вывод эксперимента: Qwen3.6-35B-A3B устойчивее работает с размытыми, «человеческими» формулировками задач, тогда как Gemma4-26B-A4B раскрывается при точном описании проблемы. Дополнительный тест с Qwen3.5-9B на MacBook с 16 ГБ на сложной задаче показал, что меньший объём памяти существенно ограничивает возможности даже компактных MoE-моделей.
MoE (Mixture of Experts) — архитектура, при которой активируется лишь часть параметров модели на каждый токен. Это позволяет запускать формально «большие» модели на потребительском железе: Qwen3.6-35B-A3B при 35 миллиардах общих параметров активирует лишь около 3 миллиардов на каждый шаг генерации. Именно поэтому MoE-модели оказались единственными, способными работать в агентском режиме на MacBook без краша системы.



