Локальный агент для кода: запускаем NorthMiniCode на двух видеокартах

Подготовлено редакцией Malakhov AI

Habr AI·2 дня назад·2 минКод

9 июня 2026 года вышла модель NorthMiniCode, ориентированная на агентские циклы разработки — планирование, работу с инструментами, редактирование и терминал. В статье на Habr автор описал опыт развертывания этой модели локально с помощью OpenCode и llama.cpp на связке RTX 5060 Ti и RTX 3060.

Кратко

—Модель NorthMiniCode доступна в формате GGUF и требует минимум H100, но автору удалось запустить её на двух картах Nvidia суммарно 28 ГБ.
—Для работы с несколькими GPU в llama.cpp используется параметр tensor-split, распределяющий тензоры пропорционально объёму памяти.
—Автор столкнулся с автоматическим созданием четырёх слотов KV Cache, что приводило к нехватке памяти; ограничение параллели до 1 решило проблему.
—Финальная конфигурация: контекст 65 536 токенов, Q4_K_M квантизация, распределение модели 57/43 между картами.

Глоссарий · 6 терминов▾

KV Cache: Кэш ключей и значений, хранящий промежуточные вычисления внимания модели для ускорения генерации новых токенов.
tensor-split: Параметр распределения тензоров модели между несколькими GPU, задаваемый пропорционально объёму памяти каждой карты.
квантование: Перевод весов модели из точного формата (например, FP16) в менее точный (INT4/INT8) для экономии памяти и ускорения инференса.
llama.cpp: Open-source библиотека для инференса языковых моделей на CPU и GPU с фокусом на эффективность и поддержку различных архитектур.
OpenCode: Инструмент для агентской разработки, позволяющий запускать кодинг-агентов локально с поддержкой различных бэкендов.
cohere2_moe: Архитектура модели на основе смеси экспертов (MoE), используемая в NorthMiniCode для баланса качества и производительности.

9 июня 2026 года вышла модель NorthMiniCode, специально спроектированная для агентской разработки: планирование, работа с инструментами, редактирование кода и выполнение команд в терминале. В отличие от универсальных моделей вроде Qwen, она ориентирована на циклы «думай — действуй — проверяй», которые лежат в основе современных кодинг-агентов.

Практическая ценность локального запуска таких моделей растёт на фоне ограничений доступа к облачным сервисам (Claude Code, Codex, Gemini CLI) — как внешних блокировок, так и внутренних корпоративных политик. Автор статьи на Habr делится опытом развёртывания NorthMiniCode на домашнем сервере: Ryzen 7 5700, 64 ГБ ОЗУ, две видеокарты (RTX 5060 Ti 16 ГБ и RTX 3060 12 ГБ) под Ubuntu 24.04 LTS.

Компонент	Значение
CPU	Ryzen 7 5700
RAM	64 GB
GPU #1	RTX 5060 Ti 16 GB
GPU #2	RTX 3060 12 GB
OS	Ubuntu 24.04 LTS

Архитектура модели cohere2_moe на момент эксперимента ещё не была добавлена в llama.cpp — пришлось собирать из PR. Сейчас она уже в master. Для инференса используется llama-server с поддержкой CUDA. Ключевой момент — правильное распределение модели между двумя GPU с разным объёмом памяти: параметр --tensor-split 16,12 распределяет 57 % тензоров на RTX 5060 Ti и 43 % на RTX 3060.

Для работы с несколькими GPU в llama.cpp используется параметр tensor-split, распределяющий тензоры пропорционально объёму памяти.

Автор столкнулся с типичной ловушкой: llama‑server по умолчанию создаёт четыре слота (n_parallel = 4), каждый со своим KV Cache. При попытке задать --ctx-size 131072 память переполнялась. Решение — ограничить параллелизм одним слотом (--parallel 1) и уменьшить контекст до 65 536 токенов. Дополнительно можно сэкономить память за счёт квантования KV‑кешей (cache-type-k q8_0, cache-type-v q8_0).

Финальная конфигурация включает quantisation Q4_K_M, температуру 0.2, top‑p 0.9, top‑k 40 и penalty за повторения. OpenCode подключается к локальному серверу через OpenAI‑совместимый API (llama.cpp его предоставляет). В результате автор получил рабочего агента для кода, способного работать с контекстом 65K токенов — достаточно для большинства задач в репозитории среднего размера.

Ограничения очевидны: модель поддерживает до 500K токенов, но на домашнем железе такой контекст недоступен из‑за роста KV Cache. Автор также отмечает, что при нехватке видеопамяти можно выгружать часть слоёв на CPU, но это резко снижает производительность. Тем не менее, сам факт запуска специализированной кодинг-модели на потребительском железе показывает, что локальная агентская разработка становится доступной.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

AWS запустила Continuum и Context: безопасность и контекст для ИИ-агентов

Продолжить по разделам

Локальный агент для кода: запускаем NorthMiniCode на двух видеокартах

Кратко

Читать дальше

Потратил полгода на обучение своей ИИ с нуля на RTX 4060 — результат

Amazon Bedrock AgentCore: встроенный веб-поиск для агентов ИИ

AWS запустила Continuum и Context: безопасность и контекст для ИИ-агентов