Локальные LLM для написания кода: как выбрать модель и запустить её на своём железе

Habr AI·17 апр.·3 минРоссияКод

MacBook Pro на M4 Pro с 48 ГБ unified memory способен запускать модели класса Qwen3-Coder-30B с приемлемой скоростью — около 150 токенов в секунду. Это делает локальный запуск LLM реальной альтернативой облачным сервисам для тех, кто не хочет передавать код на сторонние серверы.

Кратко

—Облачные LLM имеют лимиты запросов и передают данные на серверы провайдера — локальный запуск решает оба ограничения.
—Apple Silicon использует unified memory: 48 ГБ доступны одновременно CPU и GPU, что даёт преимущество перед ПК с отдельной видеокартой.
—Архитектура MoE (Mixture of Experts) позволяет модели на 30B параметров работать со скоростью 3B-модели, активируя лишь часть весов.
—Квантизация 4bit снижает требования к памяти и ускоряет генерацию, но немного ухудшает качество ответов.
—LM Studio предоставляет графический интерфейс и OpenAI-совместимый API, что позволяет подключать к локальной модели большинство агентов без изменения кода.

Глоссарий · 7 терминов▾

LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстовых данных и способная генерировать связный текст, код и ответы на вопросы.
Unified Memory: Архитектурное решение Apple Silicon, при котором CPU и GPU используют один общий пул оперативной памяти вместо раздельных модулей.
MoE (Mixture of Experts): Архитектура нейросети, в которой при обработке каждого запроса активируется только часть параметров модели, что снижает вычислительную нагрузку без пропорционального падения качества.
Квантизация: Сжатие весов нейросети за счёт уменьшения точности числового представления (например, с 16 до 4 бит), что сокращает объём памяти и ускоряет генерацию.
Function Calling: Механизм, позволяющий языковой модели вызывать внешние инструменты и программы — читать файлы, выполнять код, обращаться к API.
GGUF: Универсальный формат хранения весов локальных LLM, работающий на любых операционных системах и аппаратных конфигурациях.
MLX: Формат и фреймворк от Apple, оптимизированный для запуска нейросетей на чипах M-серии с максимальным использованием unified memory.

Запуск языковой модели локально перестал быть уделом энтузиастов с серверными стойками. MacBook Pro на чипе M4 Pro с 48 ГБ памяти выдаёт около 150 токенов в секунду на модели Qwen3-30B-A3B-4bit — это сопоставимо с задержками облачных сервисов при хорошем интернете. Главный стимул перейти на локальный запуск — приватность: весь код, промпты и файлы остаются на машине и не уходят на серверы провайдера.

Облачные LLM имеют три системных ограничения. Первое — квоты: часовые, суточные и недельные лимиты запросов, после исчерпания которых модель недоступна до следующего периода. Второе — передача данных: любой запрос к облачной модели означает отправку контекста на сторонний сервер, что неприемлемо при работе с закрытым корпоративным кодом. Третье — сетевая задержка и доступность: облачный сервис может лежать или работать медленно из-за нагрузки.

Критерий	Макс. балл
Точность денежных расчётов (BigDecimal + округление + корректное преобразование)	3.0
Типобезопасность (enum для категорий, DTO вместо Map)	2.0
Настраиваемость порога (не магическое число)	1.0
Валидация и обработка ошибок (null, неотрицательность, диапазон скидки, пропуск элементов)	1.5
Логирование (не System.out/err)	0.5
Модульные тесты (наличие)	1.0
Иммутабельность DTO	0.5
Чистая архитектура (разделение ответственности, внедрение зависимостей)	0.5
Итого	10.0

Особое место в экосистеме локальных моделей занимают устройства на Apple Silicon. Архитектура M-серии использует unified memory — единый пул памяти, доступный одновременно центральному и графическому процессору. На обычном ПК видеопамять GPU и оперативная память раздельны, поэтому модель, не помещающаяся в VRAM, резко теряет в скорости. На Mac с 48 ГБ unified memory модели весом до 30–35 ГБ работают полностью в памяти, доступной GPU, без деградации производительности.

Apple Silicon использует unified memory: 48 ГБ доступны одновременно CPU и GPU, что даёт преимущество перед ПК с отдельной видеокартой.

Локальные LLM для написания кода: как выбрать модель и запустить её на своём железе — · Источник: Habr AI

При выборе модели ключевых параметров несколько. Размер в миллиардах параметров (суффикс B в названии) определяет качество и аппетит к памяти. Архитектура MoE (Mixture of Experts) — обозначается как A3B, A7B и подобное — означает, что при генерации активируется лишь часть параметров: модель Qwen3-Coder-30B-A3B фактически работает с вычислительной нагрузкой трёхмиллиардной модели, сохраняя качество тридцатимиллиардной. Квантизация (4bit, 8bit) сжимает веса модели: 4-битная версия занимает примерно вдвое меньше памяти, чем 8-битная, но незначительно теряет в точности. Для Mac оптимален формат MLX — он скомпилирован под архитектуру Apple Silicon и быстрее универсального формата GGUF.

Для агентного использования — когда модель не просто отвечает на вопросы, а вызывает инструменты, читает файлы, запускает тесты — обязательна поддержка Function Calling. Без неё агент не сможет взаимодействовать с внешними программами. Модели с суффиксом Instruct отвечают без предварительного «размышления» и лучше подходят для итеративного кодинга; модели с режимом Thinking (например, Qwen3.5) медленнее, но точнее справляются со сложными архитектурными задачами.

Для практического запуска наиболее удобен LM Studio — приложение с графическим интерфейсом, встроенным чатом и локальным сервером с API, совместимым с форматом OpenAI. Это означает, что большинство агентов и IDE-плагинов, умеющих работать с GPT-4o, можно переключить на локальную модель, просто изменив адрес сервера. Альтернатива — Ollama, консольный инструмент без GUI, больше подходящий для развёртывания на выделенных серверах. Оценить скорость конкретной модели на своём железе до загрузки помогают инструменты вроде Performance Explorer и страница проекта oMLX с реальными замерами на разных конфигурациях.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме