Квантованные модели принято оценивать по финальному тексту на выходе — работает или нет. Группа исследователей решила спуститься глубже и применила к локальному MLX-дистрибутиву gpt-oss-20b-TurboQuant-MLX-8bit ту же логику, что раньше использовалась для анализа криптографических подписей Schnorr и MuSig2: не доверять объекту на слово, а разобрать его на проверяемые математические блоки.

Квантование — это способ уменьшить размер модели, заменив 16- или 32-битные числа (веса) на более короткие коды с поправочными коэффициентами scale и bias. В результате модель занимает меньше памяти и быстрее работает на потребительском железе, но внутренняя структура весов становится непрозрачной: стандартный инструментарий видит лишь «blob» байтов. Именно эту непрозрачность авторы и взялись устранить.

ПараметрЗначение
Всего примеров768
Split general512
Split logic256
Размер шарда128
Политика захватаlast-token
Тип активацийBF16

Для каждого квантованного блока весов записывается формула: деквантованное значение равно произведению кода на scale плюс bias. Это превращает слой из набора байтов в affine-систему — линейную структуру над дискретными кодами. Такое представление позволяет поставить задачу оптимизации: найти новый кодовый вектор, который точнее воспроизводит эталонный выход слоя, не уходя далеко от исходных значений. В экспериментах использовались консервативные ограничения: размер блока 64, коэффициент регуляризации 16, максимальное изменение одного кода — не более 8 единиц.

Квантованный слой описан как affine-система над дискретными кодами — это открывает возможность точечной оптимизации.

Чтобы оптимизация не была тривиальной, авторы доказали формальную теорему: если в качестве цели использовать сам же квантованный слой, минимум функционала ошибки достигается в исходной точке — менять ничего не нужно. Осмысленный patch возможен только при наличии внешнего эталона: реальных runtime-активаций, снятых с живой модели. Для этого был собран calibration cache из 768 примеров (512 общих и 256 логических), а для каждого примера сохранялись входной вектор и reference-output конкретного линейного слоя — именно для последнего токена, как это происходит в реальном инференсе.

Первым тестовым кандидатом стал слой model.layers.0.self_attn.q_proj.weight — проекция запросов в механизме self-attention. Аудит выявил 184 320 уникальных блоков без единого повтора и без структурных симметрий. Это означает, что слой «жёсткий»: дешёвой компрессии нет, а без внешнего эталона честный patch математически не оправдан. Результат зафиксирован явно: non-identity patch justified — false, exact patch candidates found — 0. Авторы считают это корректным выводом, а не неудачей: метод честно показывает границу применимости.

Подход принципиально отличается от классического fine-tuning, при котором модель переобучается на новых данных с изменением миллионов параметров одновременно. Здесь изменения локальны, ограничены одним блоком, математически обоснованы и верифицируются smoke-check: offline-расчёт сравнивается с реальным исполнением в MLX-runtime. Это ближе к инженерной диагностике, чем к машинному обучению в привычном смысле. Аналогичная логика уже применяется в криптографии при анализе протоколов — авторы лишь перенесли её в другую область.