9 июня 2026 года вышла модель NorthMiniCode, специально спроектированная для агентской разработки: планирование, работа с инструментами, редактирование кода и выполнение команд в терминале. В отличие от универсальных моделей вроде Qwen, она ориентирована на циклы «думай — действуй — проверяй», которые лежат в основе современных кодинг-агентов.
Практическая ценность локального запуска таких моделей растёт на фоне ограничений доступа к облачным сервисам (Claude Code, Codex, Gemini CLI) — как внешних блокировок, так и внутренних корпоративных политик. Автор статьи на Habr делится опытом развёртывания NorthMiniCode на домашнем сервере: Ryzen 7 5700, 64 ГБ ОЗУ, две видеокарты (RTX 5060 Ti 16 ГБ и RTX 3060 12 ГБ) под Ubuntu 24.04 LTS.
| Компонент | Значение |
|---|---|
| CPU | Ryzen 7 5700 |
| RAM | 64 GB |
| GPU #1 | RTX 5060 Ti 16 GB |
| GPU #2 | RTX 3060 12 GB |
| OS | Ubuntu 24.04 LTS |
Архитектура модели cohere2_moe на момент эксперимента ещё не была добавлена в llama.cpp — пришлось собирать из PR. Сейчас она уже в master. Для инференса используется llama-server с поддержкой CUDA. Ключевой момент — правильное распределение модели между двумя GPU с разным объёмом памяти: параметр --tensor-split 16,12 распределяет 57 % тензоров на RTX 5060 Ti и 43 % на RTX 3060.
Для работы с несколькими GPU в llama.cpp используется параметр tensor-split, распределяющий тензоры пропорционально объёму памяти.
Автор столкнулся с типичной ловушкой: llama‑server по умолчанию создаёт четыре слота (n_parallel = 4), каждый со своим KV Cache. При попытке задать --ctx-size 131072 память переполнялась. Решение — ограничить параллелизм одним слотом (--parallel 1) и уменьшить контекст до 65 536 токенов. Дополнительно можно сэкономить память за счёт квантования KV‑кешей (cache-type-k q8_0, cache-type-v q8_0).
Финальная конфигурация включает quantisation Q4_K_M, температуру 0.2, top‑p 0.9, top‑k 40 и penalty за повторения. OpenCode подключается к локальному серверу через OpenAI‑совместимый API (llama.cpp его предоставляет). В результате автор получил рабочего агента для кода, способного работать с контекстом 65K токенов — достаточно для большинства задач в репозитории среднего размера.
Ограничения очевидны: модель поддерживает до 500K токенов, но на домашнем железе такой контекст недоступен из‑за роста KV Cache. Автор также отмечает, что при нехватке видеопамяти можно выгружать часть слоёв на CPU, но это резко снижает производительность. Тем не менее, сам факт запуска специализированной кодинг-модели на потребительском железе показывает, что локальная агентская разработка становится доступной.

