Автор Habr-публикации описывает технический эксперимент по запуску DeepSeek-V4 — модели с 1,6 трлн параметров — на оборудовании, которое в норме не справилось бы с такой нагрузкой. Ключевой инструмент — сингулярное разложение (SVD) весовых матриц модели, позволяющее приблизительно представить каждую матрицу произведением матриц меньшего ранга.

Суть метода: SVD раскладывает матрицу весов A на три компоненты (U, Σ, V^T), после чего авторы оставляют только k наибольших сингулярных значений и отбрасывают остальные. Это снижает объём хранимых данных и вычислительную нагрузку пропорционально k, но вносит контролируемую ошибку аппроксимации. Чем агрессивнее усечение — тем меньше памяти требуется и тем ниже качество вывода.

Авторы протестировали несколько степеней компрессии и замерили итоговое качество на стандартных бенчмарках. При умеренной компрессии модель сохраняла большую часть полезных свойств при сокращении памяти в 2–4 раза. При агрессивном усечении качество деградировало значительно.

Метод: SVD-декомпозиция весов матриц, снижающая требования к памяти в несколько раз

Эксперимент интересен не как производственное решение (SVD-компрессия уступает специализированным методам квантизации вроде GPTQ или AWQ), а как демонстрация принципа: линейная алгебра позволяет «сжать» модель прямо на лету без дообучения. Это может быть полезно для исследований и быстрых прототипов.

Код и инструкции воспроизведения опубликованы в открытом доступе.