Специалисты компании Е-Флопс развернули большую языковую модель DeepSeek-R1-Distill-Llama-70B на собственном сервере «М1» с двумя процессорами ARM64 Cortex-A75 (всего 96 ядер) и парой ускорителей NVIDIA Tesla A100 80GB. Цель — получить локальный ИИ-ассистент для работы с документацией и кодом внутри изолированного контура, не используя облачные сервисы из-за требований безопасности.

Выбор пал на DeepSeek-R1-70B в квантизации Q4_K_M: модель открыта, поддерживает окно контекста 128 тыс. токенов и помещается в VRAM двух A100 (остаётся запас для будущих экспериментов). Основная техническая сложность — компоновка NUMA-памяти. На платформе сервера GPU привязаны к разным NUMA-узлам: GPU0 — к потокам 0–47, GPU1 — к потокам 48–95. Это потребовало корректной настройки llama.cpp: использование --numa distribute и --tensor-split 0.5,0.5, а также ограничение числа потоков CPU до 48.

КомпонентМодель и параметры
ШассиМ1РШ, 19", 6U, 4×CRPS 3000 Вт
Вычислительный модульMB2б с двумя ARM64 Cortex-A75 (48 ядер/сокет)
ОЗУ384 ГБ DDR4-3200 ECC (12×32 ГБ)
GPU2× NVIDIA Tesla A100 80GB PCIe (без NVLink)
Накопители256 ГБ NVMe M.2 для системы
Сеть1GbE

Сборка llama.cpp под ARM64 с поддержкой CUDA тоже потребовала дополнительных действий. Пришлось отключить shared libraries (BUILD_SHARED_LIBS=OFF) и явно указать архитектуру CUDA 80 для A100. Использован Debian 13 с ядром 6.12.28-baikal-arm64 и драйверы NVIDIA 550.163.01.

Использован сервер «М1» с двумя процессорами ARM64 (Cortex-A75, 96 ядер) и 384 ГБ ОЗУ.

В результате модель стабильно работает со скоростью генерации около 7–9 токенов/с. Каждая A100 использует примерно 40 ГБ VRAM. Планируется переход на Qwen3 и внедрение RAG для повышения качества ответов. Опыт Е-Флопс показывает, что современные открытые LLM могут эффективно работать на отечественном ARM-оборудовании при условии тщательной настройки.