LoRA-дообучение клинической модели на AMD MI300X без CUDA

Hugging Face Blog·6 дней назад·3 минИсследованияКод

Модель Qwen3-1.7B дообучили на медицинских тестовых вопросах за 5 минут на ускорителе AMD Instinct MI300X — без единой зависимости от CUDA. Проект показывает, что экосистема Hugging Face работает на ROCm так же, как на NVIDIA-железе.

Кратко

—Обучение заняло около 5 минут на AMD MI300X с 192 ГБ HBM3-памяти на 2000 примерах из MedMCQA.
—LoRA обучает лишь 2,2 млн из 1,54 млрд параметров модели — 0,14% от общего числа весов.
—Переход с CUDA на ROCm потребовал только трёх переменных окружения — код обучения не менялся.
—Модель выдаёт не только правильную букву ответа, но и клиническое объяснение выбора.
—Адаптер LoRA весит несколько мегабайт и доступен публично на Hugging Face Hub.

Видео по теме

Видео по теме · Источник: Hugging Face Blog

Глоссарий · 7 терминов▾

LoRA (Low-Rank Adaptation): Метод дообучения языковых моделей, при котором в слои внимания добавляются небольшие матрицы малого ранга, а основные веса модели остаются неизменными — это резко сокращает число обучаемых параметров.
ROCm: Открытая платформа AMD для вычислений на GPU, аналог NVIDIA CUDA, позволяющая запускать задачи машинного обучения на ускорителях AMD.
PEFT: Библиотека Hugging Face для методов эффективного дообучения (Parameter-Efficient Fine-Tuning), включая LoRA, которая позволяет обучать малую долю параметров модели.
HBM3: Высокопропускная память третьего поколения, используемая в современных ускорителях; обеспечивает большой объём VRAM и высокую скорость передачи данных.
MedMCQA: Датасет медицинских вопросов с множественным выбором, основанный на индийских врачебных вступительных экзаменах; содержит вопросы, варианты ответов и текстовые объяснения.
fp16 / bfloat16: Форматы чисел с плавающей точкой пониженной точности (16 бит), используемые при обучении нейросетей для экономии памяти; bfloat16 имеет более широкий диапазон значений, fp16 — более высокую точность мантиссы.
Gradient checkpointing: Техника обучения, при которой промежуточные активации не хранятся в памяти постоянно, а пересчитываются при необходимости — это снижает потребление VRAM за счёт дополнительных вычислений.

Большинство open-source проектов в медицинском ИИ молча предполагают наличие NVIDIA-ускорителя: CUDA стала де-факто стандартом, а всё остальное оборудование воспринимается как экзотика. Проект MedQA, представленный на хакатоне AMD Developer Hackathon на платформе lablab.ai, намеренно ломает эту логику.

Авторы взяли базовую модель Qwen3-1.7B от Alibaba — компактный языковой ИИ на 1,7 млрд параметров — и дообучили её на задаче клинических тестовых вопросов с множественным выбором. Обучение прошло целиком на ускорителе AMD Instinct MI300X, который оснащён 192 ГБ памяти HBM3. Такой объём VRAM снимает главное ограничение при дообучении больших моделей: не нужно прибегать к 4-битной или 8-битной квантизации, можно работать в полном fp16.

Параметр	Значение
Базовая модель	Qwen3-1.7B
Число параметров модели	1 543 901 184
Обучаемых параметров (LoRA)	2 228 224 (0,14%)
Ранг LoRA (r)	8
lora_alpha	16
Целевые модули	q_proj, v_proj
Датасет	MedMCQA
Обучающих примеров	2 000
Эпох обучения	2
Эффективный batch size	16 (физический 4, накопление 4)
Learning rate	2e-4
Формат точности	fp16
Время обучения	~5 минут
Ускоритель	AMD Instinct MI300X
VRAM	192 ГБ HBM3

Для дообучения использовался метод LoRA (Low-Rank Adaptation) — подход, при котором в слои внимания модели встраиваются небольшие матрицы малого ранга, а исходные веса остаются замороженными. В данном случае обучалось лишь 2,2 млн параметров из 1,54 млрд — около 0,14% от общего числа. Это делает процесс быстрым и дешёвым: на 2000 примерах из датасета MedMCQA обучение заняло примерно 5 минут. MedMCQA — крупный датасет вопросов с вариантами ответов, составленный на основе индийских медицинских вступительных экзаменов (AIIMS и аналогов USMLE). Каждый пример содержит клинический вопрос, четыре варианта ответа и текстовое объяснение.

LoRA обучает лишь 2,2 млн из 1,54 млрд параметров модели — 0,14% от общего числа весов.

Ключевой технический результат проекта — демонстрация совместимости стека Hugging Face (Transformers, PEFT, TRL, Accelerate) с ROCm. Для переключения с CUDA потребовалось задать три переменные окружения: ROCR_VISIBLE_DEVICES, HIP_VISIBLE_DEVICES и HSA_OVERRIDE_GFX_VERSION. Код обучения не изменился ни на строчку. В процессе авторы столкнулись с проблемой NaN-потерь при использовании формата bfloat16 — она решилась переходом на стандартный fp16.

Модель обучена отвечать на вопросы в формате «буква ответа + клиническое объяснение». На примере с вопросом о первой линии лечения гипертонического криза модель корректно выбирает внутривенный лабеталол или нитропруссид и объясняет, почему пероральные препараты действуют слишком медленно для экстренной ситуации. Именно наличие объяснения, по мнению авторов, делает модель клинически полезной, а не просто классификатором.

Результирующий LoRA-адаптер занимает несколько мегабайт — против нескольких гигабайт для полного чекпойнта модели — и опубликован на Hugging Face Hub под идентификатором HK2184/medqa-qwen3-lora. Загрузить его можно напрямую, присоединив к базовой Qwen3-1.7B через библиотеку PEFT.

Ограничения проекта очевидны: 2000 обучающих примеров — намеренно маленькая выборка, выбранная ради скорости демонстрации, а не ради максимальной точности. Авторы не приводят метрик качества на тестовой выборке, что не позволяет сравнить модель с другими решениями на MedMCQA. Тем не менее для отрасли важен сам прецедент: полноценный пайплайн дообучения LLM на медицинских данных, работающий на AMD-железе без модификации кода, снижает зависимость исследователей от монополии NVIDIA в этом сегменте.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме