GPT-OSS 20B на ноутбуке без видеокарты: тест на 32 ГБ RAM и встроенной Radeon 780M

Подготовлено редакцией Malakhov AI

Habr AI·6 часов назад·3 минРоссияКод

Модель openai/gpt-oss-20b в формате MXFP4 GGUF запустили на ASUS Vivobook S 16 с AMD Ryzen 7 260 и встроенной Radeon 780M без дискретной видеокарты — скорость генерации составила 8–10,6 токена в секунду. Главным ограничителем оказалась не вычислительная мощность, а объём оперативной памяти: при контексте 65536 токенов модель занимала 30 ГБ из доступных 31,3 ГБ.

Кратко

—Скорость генерации — 8,05–10,63 tok/sec, средняя по сериям около 9 tok/sec при трёх значениях контекста.
—Пик потребления RAM: 27,6 ГБ при контексте 16384, 28,7 ГБ при 32768 и 30,0 ГБ при 65536 из 31,3 ГБ доступных.
—Модель справилась с написанием Python-скрипта для потоковой обработки лог-файлов, но допускала ошибки в самоаудите.
—Увеличение лимита контекста с 16384 до 65536 не привело к заметному падению скорости генерации.
—NPU не задействовался, диск во время генерации нагружался менее чем на 1%.

Глоссарий · 7 терминов▾

GGUF: Формат файлов для хранения квантизованных языковых моделей, используемый в llama.cpp и совместимых инструментах — позволяет запускать модели на CPU и интегрированной графике.
MXFP4: Формат квантизации, при котором веса модели хранятся в 4-битном представлении — снижает требования к памяти примерно в 8 раз по сравнению с полноточным форматом FP32.
Shared memory: Режим работы встроенной графики, при котором она использует часть общей оперативной памяти системы вместо выделенной видеопамяти.
Context Length: Максимальное количество токенов, которое модель может учитывать в одном разговоре — чем больше значение, тем больше памяти требуется.
GPU Offload: Параметр в LM Studio, определяющий, какая часть вычислений передаётся на GPU — в данном тесте выставлен вручную в значение 20.
tok/sec: Токенов в секунду — единица измерения скорости генерации текста языковой моделью; один токен примерно соответствует 0,75 слова.
LM Studio: Десктопное приложение для локального запуска языковых моделей в формате GGUF без необходимости настройки командной строки.

Запуск крупных языковых моделей локально долгое время считался уделом машин с мощными дискретными видеокартами. Тест на ASUS Vivobook S 16 M3607HA — ноутбуке с AMD Ryzen 7 260, встроенной Radeon 780M и 32 ГБ DDR5-5600 — показывает, что 20-миллиардная модель openai/gpt-oss-20b в формате MXFP4 GGUF на таком железе работает, хотя и с оговорками.

GPT-OSS 20B — открытая модель OpenAI с 20 миллиардами параметров. Формат GGUF используется в экосистеме llama.cpp и совместимых инструментах, в том числе LM Studio, и позволяет запускать модели на CPU и интегрированной графике без специализированных фреймворков. MXFP4 — один из агрессивных форматов квантизации: веса модели хранятся в 4-битном представлении, что существенно снижает требования к памяти по сравнению с полноточными вариантами. Без квантизации 20B-модель потребовала бы порядка 40 ГБ только для весов — на 32 ГБ RAM это невозможно.

Context Length	Prompt	Назначение	tok/sec	Сгенерировано токенов	Использовано контекста
16384	Prompt 1	Базовая скорость + фактология	9,98	1532	11,9%
16384	Prompt 2	Reasoning + код	9,32	2076	21,9%
16384	Prompt 3	Удержание контекста	8,66	744	28,2%
32768	Prompt 1	Базовая скорость + фактология	10,04	1656	6,3%
32768	Prompt 2	Reasoning + код	9,17	2486	12,6%
32768	Prompt 3	Удержание контекста	8,05	1518	18,2%
65536	Prompt 1	Базовая скорость + фактология	10,63	868	2,0%
65536	Prompt 2	Reasoning + код	9,49	1844	5,0%
65536	Prompt 3	Удержание контекста	8,54	1260	7,3%

Тест проводился через LM Studio 0.4.16 с фиксированными настройками: GPU Offload 20, 8 потоков CPU, Evaluation Batch Size 512. Менялся только лимит контекста — 16384, 32768 и 65536 токенов. Для каждого значения прогонялись три сценария: проверка фактологии с контрольными маркерами, написание Python-скрипта для потоковой обработки многогигабайтного лог-файла и самоаудит предыдущего ответа.

Пик потребления RAM: 27,6 ГБ при контексте 16384, 28,7 ГБ при 32768 и 30,0 ГБ при 65536 из 31,3 ГБ доступных.

Скорость генерации оказалась стабильной: от 8,05 до 10,63 tok/sec в зависимости от сценария, средняя по всем прогонам — около 9 tok/sec. Примечательно, что увеличение лимита контекста с 16384 до 65536 не привело к заметному замедлению. Средние значения по трём сценариям составили 9,32 tok/sec для 16384, 9,09 tok/sec для 32768 и 9,55 tok/sec для 65536. Автор оговаривается, что разница статистически незначима: при большем контексте ответы оказались короче, а фактически использованная часть окна — меньше.

Главным ограничителем стала RAM. Radeon 780M работает на shared memory — она не имеет собственной видеопамяти и использует общую оперативную память системы. Это означает, что 32 ГБ делятся между Windows, моделью и встроенной графикой одновременно. При контексте 65536 пиковое потребление достигало 30,0 ГБ из доступных 31,3 ГБ — свободного остатка почти не остаётся для фоновых задач. При контексте 16384 пик составлял 27,6 ГБ, что оставляет чуть больше пространства для манёвра.

С практической задачей — написанием Python-скрипта для потоковой обработки лог-файлов с поддержкой argparse, подсчётом HTTP-статусов, IP-адресов и строк с ERROR/WARNING — модель справилась. Однако в сценарии самоаудита допускала ошибки: неточно воспроизводила собственные предыдущие ответы и характеристики железа. Больший лимит контекста сам по себе не улучшил качество ответов.

Для сравнения: 9 tok/sec — это примерно 540 слов в минуту, что вполне комфортно для чтения и итеративной работы с кодом, хотя заметно медленнее облачных API. Аналогичные по размеру модели (Llama 3.1 70B, Mistral Large) на том же железе были бы недоступны даже в квантизованном виде — они требуют минимум 40–48 ГБ RAM. 20B-класс с агрессивной квантизацией сейчас фактически является верхней границей для ноутбуков с 32 ГБ.

Вывод из теста практический: запускать openai/gpt-oss-20b MXFP4 на ноутбуке с 32 ГБ RAM без дискретной видеокарты можно. Комфортнее работать с контекстом 16384 или 32768 — при 65536 запас памяти становится слишком маленьким для параллельной работы браузера или других приложений. NPU в тестах не задействовался, диск нагружался менее чем на 1%.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ