Запуск языковой модели локально перестал быть уделом энтузиастов с серверными стойками. MacBook Pro на чипе M4 Pro с 48 ГБ памяти выдаёт около 150 токенов в секунду на модели Qwen3-30B-A3B-4bit — это сопоставимо с задержками облачных сервисов при хорошем интернете. Главный стимул перейти на локальный запуск — приватность: весь код, промпты и файлы остаются на машине и не уходят на серверы провайдера.
Облачные LLM имеют три системных ограничения. Первое — квоты: часовые, суточные и недельные лимиты запросов, после исчерпания которых модель недоступна до следующего периода. Второе — передача данных: любой запрос к облачной модели означает отправку контекста на сторонний сервер, что неприемлемо при работе с закрытым корпоративным кодом. Третье — сетевая задержка и доступность: облачный сервис может лежать или работать медленно из-за нагрузки.
| Критерий | Макс. балл |
|---|---|
| Точность денежных расчётов (BigDecimal + округление + корректное преобразование) | 3.0 |
| Типобезопасность (enum для категорий, DTO вместо Map) | 2.0 |
| Настраиваемость порога (не магическое число) | 1.0 |
| Валидация и обработка ошибок (null, неотрицательность, диапазон скидки, пропуск элементов) | 1.5 |
| Логирование (не System.out/err) | 0.5 |
| Модульные тесты (наличие) | 1.0 |
| Иммутабельность DTO | 0.5 |
| Чистая архитектура (разделение ответственности, внедрение зависимостей) | 0.5 |
| Итого | 10.0 |
Особое место в экосистеме локальных моделей занимают устройства на Apple Silicon. Архитектура M-серии использует unified memory — единый пул памяти, доступный одновременно центральному и графическому процессору. На обычном ПК видеопамять GPU и оперативная память раздельны, поэтому модель, не помещающаяся в VRAM, резко теряет в скорости. На Mac с 48 ГБ unified memory модели весом до 30–35 ГБ работают полностью в памяти, доступной GPU, без деградации производительности.
Apple Silicon использует unified memory: 48 ГБ доступны одновременно CPU и GPU, что даёт преимущество перед ПК с отдельной видеокартой.

При выборе модели ключевых параметров несколько. Размер в миллиардах параметров (суффикс B в названии) определяет качество и аппетит к памяти. Архитектура MoE (Mixture of Experts) — обозначается как A3B, A7B и подобное — означает, что при генерации активируется лишь часть параметров: модель Qwen3-Coder-30B-A3B фактически работает с вычислительной нагрузкой трёхмиллиардной модели, сохраняя качество тридцатимиллиардной. Квантизация (4bit, 8bit) сжимает веса модели: 4-битная версия занимает примерно вдвое меньше памяти, чем 8-битная, но незначительно теряет в точности. Для Mac оптимален формат MLX — он скомпилирован под архитектуру Apple Silicon и быстрее универсального формата GGUF.
Для агентного использования — когда модель не просто отвечает на вопросы, а вызывает инструменты, читает файлы, запускает тесты — обязательна поддержка Function Calling. Без неё агент не сможет взаимодействовать с внешними программами. Модели с суффиксом Instruct отвечают без предварительного «размышления» и лучше подходят для итеративного кодинга; модели с режимом Thinking (например, Qwen3.5) медленнее, но точнее справляются со сложными архитектурными задачами.
Для практического запуска наиболее удобен LM Studio — приложение с графическим интерфейсом, встроенным чатом и локальным сервером с API, совместимым с форматом OpenAI. Это означает, что большинство агентов и IDE-плагинов, умеющих работать с GPT-4o, можно переключить на локальную модель, просто изменив адрес сервера. Альтернатива — Ollama, консольный инструмент без GUI, больше подходящий для развёртывания на выделенных серверах. Оценить скорость конкретной модели на своём железе до загрузки помогают инструменты вроде Performance Explorer и страница проекта oMLX с реальными замерами на разных конфигурациях.


