DeepSeek-R1 запустили на отечественных ARM-процессорах с NVIDIA A100

Подготовлено редакцией Malakhov AI

Habr AI·2 дня назад·1 минРоссияКод

Компания Е-Флопс за неделю развернула DeepSeek-R1-Distill-Llama-70B на сервере с отечественными ARM-процессорами Baikal и двумя ускорителями NVIDIA A100. Полученный опыт описан в 16-страничном отчёте, а процесс оказался нетривиальным из-за особенностей архитектуры.

Кратко

—DeepSeek-R1-Distill-Llama-70B в квантизации Q4_K_M развёрнута на двух NVIDIA A100 80GB без NVLink.
—Использован сервер «М1» с двумя процессорами ARM64 (Cortex-A75, 96 ядер) и 384 ГБ ОЗУ.
—Ключевая проблема — NUMA-привязка GPU к разным узлам, решённая параметрами запуска llama.cpp.
—Скорость генерации составила около 7–9 токенов/с, загрузка каждой A100 — около 40 ГБ VRAM.

Глоссарий · 6 терминов▾

NUMA: Архитектура памяти с неоднородным доступом — процессоры разделяют память на несколько узлов, доступ к памяти другого узла медленнее.
Квантизация: Приведение весов модели к меньшей разрядности (например, 4 бит вместо 16) для снижения требований к памяти.
VRAM: Видеопамять GPU, используется для хранения данных при вычислениях.
Тензор: Многомерный массив данных, основная единица работы нейросетей.
RAG: Retrieval-Augmented Generation — метод дополнения ответов модели данными из внешней базы знаний.
llama.cpp: Инструмент для запуска LLM на CPU/GPU в формате GGUF.

Специалисты компании Е-Флопс развернули большую языковую модель DeepSeek-R1-Distill-Llama-70B на собственном сервере «М1» с двумя процессорами ARM64 Cortex-A75 (всего 96 ядер) и парой ускорителей NVIDIA Tesla A100 80GB. Цель — получить локальный ИИ-ассистент для работы с документацией и кодом внутри изолированного контура, не используя облачные сервисы из-за требований безопасности.

Выбор пал на DeepSeek-R1-70B в квантизации Q4_K_M: модель открыта, поддерживает окно контекста 128 тыс. токенов и помещается в VRAM двух A100 (остаётся запас для будущих экспериментов). Основная техническая сложность — компоновка NUMA-памяти. На платформе сервера GPU привязаны к разным NUMA-узлам: GPU0 — к потокам 0–47, GPU1 — к потокам 48–95. Это потребовало корректной настройки llama.cpp: использование --numa distribute и --tensor-split 0.5,0.5, а также ограничение числа потоков CPU до 48.

Компонент	Модель и параметры
Шасси	М1РШ, 19", 6U, 4×CRPS 3000 Вт
Вычислительный модуль	MB2б с двумя ARM64 Cortex-A75 (48 ядер/сокет)
ОЗУ	384 ГБ DDR4-3200 ECC (12×32 ГБ)
GPU	2× NVIDIA Tesla A100 80GB PCIe (без NVLink)
Накопители	256 ГБ NVMe M.2 для системы
Сеть	1GbE

Сборка llama.cpp под ARM64 с поддержкой CUDA тоже потребовала дополнительных действий. Пришлось отключить shared libraries (BUILD_SHARED_LIBS=OFF) и явно указать архитектуру CUDA 80 для A100. Использован Debian 13 с ядром 6.12.28-baikal-arm64 и драйверы NVIDIA 550.163.01.

Использован сервер «М1» с двумя процессорами ARM64 (Cortex-A75, 96 ядер) и 384 ГБ ОЗУ.

В результате модель стабильно работает со скоростью генерации около 7–9 токенов/с. Каждая A100 использует примерно 40 ГБ VRAM. Планируется переход на Qwen3 и внедрение RAG для повышения качества ответов. Опыт Е-Флопс показывает, что современные открытые LLM могут эффективно работать на отечественном ARM-оборудовании при условии тщательной настройки.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ