AI-forensics для квантованных моделей: как сделать слой наблюдаемым и корректируемым

Habr AI·21 апр.·3 минРоссияКод

Исследователи применили методологию криптографического анализа подписей Schnorr к квантованной модели gpt-oss-20b-TurboQuant-MLX-8bit и построили pipeline, позволяющий точечно исправлять отдельные слои без переобучения всей модели.

Кратко

—Объект исследования — локальный MLX-дистрибутив gpt-oss-20b-TurboQuant-MLX-8bit, два слоя первого блока.
—Квантованный слой описан как affine-система над дискретными кодами — это открывает возможность точечной оптимизации.
—Calibration cache из 768 примеров обеспечивает воспроизводимость: каждый эксперимент проверяется на одном и том же наборе данных.
—Слой q_proj оказался структурно «жёстким»: 184 320 уникальных блоков, ни одного повтора — честный patch без внешнего эталона невозможен.
—Ключевой вывод: без внешнего reference-output любая оптимизация кодов возвращает тривиальный результат — «ничего не менять».

Глоссарий · 7 терминов▾

Квантование: Сжатие весов нейросети путём замены чисел высокой точности (BF16, FP32) на короткие целочисленные коды с поправочными коэффициентами, что уменьшает размер модели и ускоряет вычисления.
MLX: Фреймворк машинного обучения от Apple, оптимизированный для запуска моделей на процессорах Apple Silicon.
safetensors: Формат хранения весов нейросетей, разработанный Hugging Face как безопасная и быстрая альтернатива pickle-файлам.
Affine-система: Математическая структура вида y = Ax + b, где A — матрица, b — вектор смещения; описывает линейное преобразование с константным сдвигом.
Calibration cache: Заранее собранный фиксированный набор входных примеров и эталонных выходов, используемый для воспроизводимой оценки изменений в модели.
Self-attention: Механизм в трансформерных моделях, позволяющий каждому токену учитывать контекст всех остальных токенов в последовательности.
Fine-tuning: Дообучение уже обученной нейросети на новых данных с обновлением большого числа параметров модели.

Квантованные модели принято оценивать по финальному тексту на выходе — работает или нет. Группа исследователей решила спуститься глубже и применила к локальному MLX-дистрибутиву gpt-oss-20b-TurboQuant-MLX-8bit ту же логику, что раньше использовалась для анализа криптографических подписей Schnorr и MuSig2: не доверять объекту на слово, а разобрать его на проверяемые математические блоки.

Квантование — это способ уменьшить размер модели, заменив 16- или 32-битные числа (веса) на более короткие коды с поправочными коэффициентами scale и bias. В результате модель занимает меньше памяти и быстрее работает на потребительском железе, но внутренняя структура весов становится непрозрачной: стандартный инструментарий видит лишь «blob» байтов. Именно эту непрозрачность авторы и взялись устранить.

Параметр	Значение
Всего примеров	768
Split general	512
Split logic	256
Размер шарда	128
Политика захвата	last-token
Тип активаций	BF16

Для каждого квантованного блока весов записывается формула: деквантованное значение равно произведению кода на scale плюс bias. Это превращает слой из набора байтов в affine-систему — линейную структуру над дискретными кодами. Такое представление позволяет поставить задачу оптимизации: найти новый кодовый вектор, который точнее воспроизводит эталонный выход слоя, не уходя далеко от исходных значений. В экспериментах использовались консервативные ограничения: размер блока 64, коэффициент регуляризации 16, максимальное изменение одного кода — не более 8 единиц.

Квантованный слой описан как affine-система над дискретными кодами — это открывает возможность точечной оптимизации.

Чтобы оптимизация не была тривиальной, авторы доказали формальную теорему: если в качестве цели использовать сам же квантованный слой, минимум функционала ошибки достигается в исходной точке — менять ничего не нужно. Осмысленный patch возможен только при наличии внешнего эталона: реальных runtime-активаций, снятых с живой модели. Для этого был собран calibration cache из 768 примеров (512 общих и 256 логических), а для каждого примера сохранялись входной вектор и reference-output конкретного линейного слоя — именно для последнего токена, как это происходит в реальном инференсе.

Первым тестовым кандидатом стал слой model.layers.0.self_attn.q_proj.weight — проекция запросов в механизме self-attention. Аудит выявил 184 320 уникальных блоков без единого повтора и без структурных симметрий. Это означает, что слой «жёсткий»: дешёвой компрессии нет, а без внешнего эталона честный patch математически не оправдан. Результат зафиксирован явно: non-identity patch justified — false, exact patch candidates found — 0. Авторы считают это корректным выводом, а не неудачей: метод честно показывает границу применимости.

Подход принципиально отличается от классического fine-tuning, при котором модель переобучается на новых данных с изменением миллионов параметров одновременно. Здесь изменения локальны, ограничены одним блоком, математически обоснованы и верифицируются smoke-check: offline-расчёт сравнивается с реальным исполнением в MLX-runtime. Это ближе к инженерной диагностике, чем к машинному обучению в привычном смысле. Аналогичная логика уже применяется в криптографии при анализе протоколов — авторы лишь перенесли её в другую область.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме