Регуляторные требования вроде GDPR обязывают компании удалять персональные данные из обученных моделей по запросу пользователя. Полное переобучение модели с нуля технически решает задачу, но стоит огромных вычислительных ресурсов. Машинное забывание — альтернативный подход: модель модифицируется так, чтобы «вычеркнуть» конкретные записи без повторного прохождения всего обучающего цикла. Проблема в том, что проверить факт забывания крайне сложно: аудитор, как правило, не видит ни весов модели, ни исходных данных и может лишь анализировать её выходы.

Стандартный инструмент такой проверки — двухвыборочное тестирование (two-sample testing): статистический метод, определяющий, принадлежат ли два набора наблюдений одному распределению. Аудитор сравнивает выходы модели, которая никогда не видела удалённую запись, с выходами модели, которая её «забыла». Если распределения статистически различаются — забывание считается неудачным. Однако у этого подхода есть фундаментальный изъян: даже две модели, обученные на абсолютно одинаковых данных, могут давать разные распределения из-за различий в размере батча или порядке примеров. Это порождает ложные срабатывания — модель признаётся небезопасной, хотя никакой утечки нет. Кроме того, теоретически доказано, что локальные алгоритмы забывания всегда оставляют статистический след исходных данных, и традиционный двухвыборочный тест это обнаружит вне зависимости от качества забывания.

ДивергенцияЛучше всего подходит дляПрименение в фреймворке
Chi-squaredПлавные локализованные различия, выбросы в физических моделяхВыявление точечных аномалий в данных
KL (Kullback-Leibler)Плавные и локализованные различияДетектирование утечек в структурированных данных
Hockey-stickЗадачи приватности с порогом допустимых различийАудит дифференциальной приватности
MMD (baseline)Глобальные сдвиги распределенийСтандартный метод, пропускает локальные аномалии

Google Research предлагает иную постановку задачи. Вместо того чтобы спрашивать «отличается ли забывшая модель от эталона», новый фреймворк задаёт вопрос: «к чему она ближе — к безопасному эталону или к исходной скомпрометированной модели?» Это трёхвыборочный относительный тест, который по определению устойчив к ложным срабатываниям, вызванным случайными вариациями обучения.

Метод использует относительный тест расстояний: проверяет, ближе ли «забывшая» модель к безопасному эталону или к исходной, скомпрометированной версии.

Технически фреймворк строится на f-дивергенциях — семействе метрик, каждая из которых «чувствительна» к своему типу отклонений. Chi-squared и KL-дивергенции хорошо выявляют плавные локализованные различия и выбросы. Hockey-stick-дивергенция специально разработана для задач приватности: она игнорирует различия ниже заданного порога и срабатывает только при реальном нарушении. Популярный метод MMD (maximum mean discrepancy), напротив, хорошо улавливает глобальные сдвиги — например, систематическое изменение яркости изображений — но пропускает точечные аномалии, когда утечка проявляется лишь при очень специфичном запросе. Вычисление f-дивергенций на высокоразмерных данных само по себе вычислительно дорого, поэтому авторы применяют ядровую регуляризацию, которая делает оптимизацию управляемой без потери статистической мощности. Фреймворк автоматически выбирает оптимальную дивергенцию и гиперпараметры, исключая ручной подбор.

Для проверки авторы использовали нетривиальный полигон — данные физики высоких энергий. Логика выбора: детекторы частиц требуют самых чувствительных «детекторов различий» в мире, поскольку ищут редкие события, выходящие за рамки Стандартной модели. Если фреймворк способен зафиксировать сигнал редкой частицы на фоне шума, он справится и с микроутечкой данных в ИИ-модели. Дополнительно фреймворк тестировался на аудите дифференциальной приватности и на нескольких алгоритмах машинного забывания: Selective Synaptic Dampening, pruning и random label. По всем сценариям новый подход восстановил или превзошёл результаты базовых методов при существенно меньшем ручном вмешательстве.