Регуляторные требования вроде GDPR обязывают компании удалять персональные данные из обученных моделей по запросу пользователя. Полное переобучение модели с нуля технически решает задачу, но стоит огромных вычислительных ресурсов. Машинное забывание — альтернативный подход: модель модифицируется так, чтобы «вычеркнуть» конкретные записи без повторного прохождения всего обучающего цикла. Проблема в том, что проверить факт забывания крайне сложно: аудитор, как правило, не видит ни весов модели, ни исходных данных и может лишь анализировать её выходы.
Стандартный инструмент такой проверки — двухвыборочное тестирование (two-sample testing): статистический метод, определяющий, принадлежат ли два набора наблюдений одному распределению. Аудитор сравнивает выходы модели, которая никогда не видела удалённую запись, с выходами модели, которая её «забыла». Если распределения статистически различаются — забывание считается неудачным. Однако у этого подхода есть фундаментальный изъян: даже две модели, обученные на абсолютно одинаковых данных, могут давать разные распределения из-за различий в размере батча или порядке примеров. Это порождает ложные срабатывания — модель признаётся небезопасной, хотя никакой утечки нет. Кроме того, теоретически доказано, что локальные алгоритмы забывания всегда оставляют статистический след исходных данных, и традиционный двухвыборочный тест это обнаружит вне зависимости от качества забывания.
| Дивергенция | Лучше всего подходит для | Применение в фреймворке |
|---|---|---|
| Chi-squared | Плавные локализованные различия, выбросы в физических моделях | Выявление точечных аномалий в данных |
| KL (Kullback-Leibler) | Плавные и локализованные различия | Детектирование утечек в структурированных данных |
| Hockey-stick | Задачи приватности с порогом допустимых различий | Аудит дифференциальной приватности |
| MMD (baseline) | Глобальные сдвиги распределений | Стандартный метод, пропускает локальные аномалии |
Google Research предлагает иную постановку задачи. Вместо того чтобы спрашивать «отличается ли забывшая модель от эталона», новый фреймворк задаёт вопрос: «к чему она ближе — к безопасному эталону или к исходной скомпрометированной модели?» Это трёхвыборочный относительный тест, который по определению устойчив к ложным срабатываниям, вызванным случайными вариациями обучения.
Метод использует относительный тест расстояний: проверяет, ближе ли «забывшая» модель к безопасному эталону или к исходной, скомпрометированной версии.
Технически фреймворк строится на f-дивергенциях — семействе метрик, каждая из которых «чувствительна» к своему типу отклонений. Chi-squared и KL-дивергенции хорошо выявляют плавные локализованные различия и выбросы. Hockey-stick-дивергенция специально разработана для задач приватности: она игнорирует различия ниже заданного порога и срабатывает только при реальном нарушении. Популярный метод MMD (maximum mean discrepancy), напротив, хорошо улавливает глобальные сдвиги — например, систематическое изменение яркости изображений — но пропускает точечные аномалии, когда утечка проявляется лишь при очень специфичном запросе. Вычисление f-дивергенций на высокоразмерных данных само по себе вычислительно дорого, поэтому авторы применяют ядровую регуляризацию, которая делает оптимизацию управляемой без потери статистической мощности. Фреймворк автоматически выбирает оптимальную дивергенцию и гиперпараметры, исключая ручной подбор.
Для проверки авторы использовали нетривиальный полигон — данные физики высоких энергий. Логика выбора: детекторы частиц требуют самых чувствительных «детекторов различий» в мире, поскольку ищут редкие события, выходящие за рамки Стандартной модели. Если фреймворк способен зафиксировать сигнал редкой частицы на фоне шума, он справится и с микроутечкой данных в ИИ-модели. Дополнительно фреймворк тестировался на аудите дифференциальной приватности и на нескольких алгоритмах машинного забывания: Selective Synaptic Dampening, pruning и random label. По всем сценариям новый подход восстановил или превзошёл результаты базовых методов при существенно меньшем ручном вмешательстве.



