Запуск языковой модели локально перестал быть уделом энтузиастов с серверными стойками. MacBook Pro на чипе M4 Pro с 48 ГБ памяти выдаёт около 150 токенов в секунду на модели Qwen3-30B-A3B-4bit — это сопоставимо с задержками облачных сервисов при хорошем интернете. Главный стимул перейти на локальный запуск — приватность: весь код, промпты и файлы остаются на машине и не уходят на серверы провайдера.

Облачные LLM имеют три системных ограничения. Первое — квоты: часовые, суточные и недельные лимиты запросов, после исчерпания которых модель недоступна до следующего периода. Второе — передача данных: любой запрос к облачной модели означает отправку контекста на сторонний сервер, что неприемлемо при работе с закрытым корпоративным кодом. Третье — сетевая задержка и доступность: облачный сервис может лежать или работать медленно из-за нагрузки.

КритерийМакс. балл
Точность денежных расчётов (BigDecimal + округление + корректное преобразование)3.0
Типобезопасность (enum для категорий, DTO вместо Map)2.0
Настраиваемость порога (не магическое число)1.0
Валидация и обработка ошибок (null, неотрицательность, диапазон скидки, пропуск элементов)1.5
Логирование (не System.out/err)0.5
Модульные тесты (наличие)1.0
Иммутабельность DTO0.5
Чистая архитектура (разделение ответственности, внедрение зависимостей)0.5
Итого10.0

Особое место в экосистеме локальных моделей занимают устройства на Apple Silicon. Архитектура M-серии использует unified memory — единый пул памяти, доступный одновременно центральному и графическому процессору. На обычном ПК видеопамять GPU и оперативная память раздельны, поэтому модель, не помещающаяся в VRAM, резко теряет в скорости. На Mac с 48 ГБ unified memory модели весом до 30–35 ГБ работают полностью в памяти, доступной GPU, без деградации производительности.

Apple Silicon использует unified memory: 48 ГБ доступны одновременно CPU и GPU, что даёт преимущество перед ПК с отдельной видеокартой.

Локальные LLM для написания кода: как выбрать модель и запустить её на своём железе
· Источник: Habr AI

При выборе модели ключевых параметров несколько. Размер в миллиардах параметров (суффикс B в названии) определяет качество и аппетит к памяти. Архитектура MoE (Mixture of Experts) — обозначается как A3B, A7B и подобное — означает, что при генерации активируется лишь часть параметров: модель Qwen3-Coder-30B-A3B фактически работает с вычислительной нагрузкой трёхмиллиардной модели, сохраняя качество тридцатимиллиардной. Квантизация (4bit, 8bit) сжимает веса модели: 4-битная версия занимает примерно вдвое меньше памяти, чем 8-битная, но незначительно теряет в точности. Для Mac оптимален формат MLX — он скомпилирован под архитектуру Apple Silicon и быстрее универсального формата GGUF.

Для агентного использования — когда модель не просто отвечает на вопросы, а вызывает инструменты, читает файлы, запускает тесты — обязательна поддержка Function Calling. Без неё агент не сможет взаимодействовать с внешними программами. Модели с суффиксом Instruct отвечают без предварительного «размышления» и лучше подходят для итеративного кодинга; модели с режимом Thinking (например, Qwen3.5) медленнее, но точнее справляются со сложными архитектурными задачами.

Для практического запуска наиболее удобен LM Studio — приложение с графическим интерфейсом, встроенным чатом и локальным сервером с API, совместимым с форматом OpenAI. Это означает, что большинство агентов и IDE-плагинов, умеющих работать с GPT-4o, можно переключить на локальную модель, просто изменив адрес сервера. Альтернатива — Ollama, консольный инструмент без GUI, больше подходящий для развёртывания на выделенных серверах. Оценить скорость конкретной модели на своём железе до загрузки помогают инструменты вроде Performance Explorer и страница проекта oMLX с реальными замерами на разных конфигурациях.