Google Research предложила новый фреймворк аудита машинного забывания

Подготовлено редакцией Malakhov AI

Google Research Blog·10 июн.·3 минЛаборатории

На конференции AISTATS 2026 Google Research представила Regularized f-Divergence Kernel Tests — статистический фреймворк, который позволяет проверять, ли ИИ-модель «забыла» конкретные данные, не имея доступа к её внутренней архитектуре. Существующие методы аудита теряют точность по мере роста моделей и дают ложные срабатывания даже при корректном обучении.

Кратко

—Фреймворк Regularized f-Divergence Kernel Tests принят к AISTATS 2026 и разработан командой Google Research.
—Метод использует относительный тест расстояний: проверяет, ближе ли «забывшая» модель к безопасному эталону или к исходной, скомпрометированной версии.
—Поддерживаются три типа дивергенций: Chi-squared, KL и Hockey-stick — каждая выявляет свой класс утечек данных.
—Ядровая регуляризация снижает вычислительную стоимость оценки дивергенций на высокоразмерных данных без потери точности.
—На тестах по физике частиц и аудиту дифференциальной приватности фреймворк превзошёл все базовые методы при меньшем ручном подборе параметров.

Видео по теме

Видео по теме · Источник: Google Research Blog

Глоссарий · 7 терминов▾

Машинное забывание (machine unlearning): Метод модификации уже обученной модели, позволяющий удалить влияние конкретных данных без полного переобучения с нуля.
Двухвыборочное тестирование (two-sample testing): Статистический метод, проверяющий, принадлежат ли два набора наблюдений одному вероятностному распределению.
f-дивергенция: Семейство метрик для измерения «расстояния» между двумя вероятностными распределениями; разные члены семейства чувствительны к разным типам отклонений.
MMD (maximum mean discrepancy): Популярная метрика для сравнения распределений, эффективная при глобальных сдвигах, но слабая при локализованных аномалиях.
Дифференциальная приватность (differential privacy): Математический подход к защите данных: в выходы модели добавляется калиброванный шум, ограничивающий влияние любого отдельного пользователя.
Ядровая регуляризация (kernel regularization): Математический приём, позволяющий эффективно оценивать сложные функции на высокоразмерных данных без избыточных вычислительных затрат.
Hockey-stick-дивергенция: Разновидность f-дивергенции с параметром порога: игнорирует различия ниже заданного уровня и сигнализирует только о значимых нарушениях приватности.

Регуляторные требования вроде GDPR обязывают компании удалять персональные данные из обученных моделей по запросу пользователя. Полное переобучение модели с нуля технически решает задачу, но стоит огромных вычислительных ресурсов. Машинное забывание — альтернативный подход: модель модифицируется так, чтобы «вычеркнуть» конкретные записи без повторного прохождения всего обучающего цикла. Проблема в том, что проверить факт забывания крайне сложно: аудитор, как правило, не видит ни весов модели, ни исходных данных и может лишь анализировать её выходы.

Стандартный инструмент такой проверки — двухвыборочное тестирование (two-sample testing): статистический метод, определяющий, принадлежат ли два набора наблюдений одному распределению. Аудитор сравнивает выходы модели, которая никогда не видела удалённую запись, с выходами модели, которая её «забыла». Если распределения статистически различаются — забывание считается неудачным. Однако у этого подхода есть фундаментальный изъян: даже две модели, обученные на абсолютно одинаковых данных, могут давать разные распределения из-за различий в размере батча или порядке примеров. Это порождает ложные срабатывания — модель признаётся небезопасной, хотя никакой утечки нет. Кроме того, теоретически доказано, что локальные алгоритмы забывания всегда оставляют статистический след исходных данных, и традиционный двухвыборочный тест это обнаружит вне зависимости от качества забывания.

Дивергенция	Лучше всего подходит для	Применение в фреймворке
Chi-squared	Плавные локализованные различия, выбросы в физических моделях	Выявление точечных аномалий в данных
KL (Kullback-Leibler)	Плавные и локализованные различия	Детектирование утечек в структурированных данных
Hockey-stick	Задачи приватности с порогом допустимых различий	Аудит дифференциальной приватности
MMD (baseline)	Глобальные сдвиги распределений	Стандартный метод, пропускает локальные аномалии

Google Research предлагает иную постановку задачи. Вместо того чтобы спрашивать «отличается ли забывшая модель от эталона», новый фреймворк задаёт вопрос: «к чему она ближе — к безопасному эталону или к исходной скомпрометированной модели?» Это трёхвыборочный относительный тест, который по определению устойчив к ложным срабатываниям, вызванным случайными вариациями обучения.

Метод использует относительный тест расстояний: проверяет, ближе ли «забывшая» модель к безопасному эталону или к исходной, скомпрометированной версии.

Технически фреймворк строится на f-дивергенциях — семействе метрик, каждая из которых «чувствительна» к своему типу отклонений. Chi-squared и KL-дивергенции хорошо выявляют плавные локализованные различия и выбросы. Hockey-stick-дивергенция специально разработана для задач приватности: она игнорирует различия ниже заданного порога и срабатывает только при реальном нарушении. Популярный метод MMD (maximum mean discrepancy), напротив, хорошо улавливает глобальные сдвиги — например, систематическое изменение яркости изображений — но пропускает точечные аномалии, когда утечка проявляется лишь при очень специфичном запросе. Вычисление f-дивергенций на высокоразмерных данных само по себе вычислительно дорого, поэтому авторы применяют ядровую регуляризацию, которая делает оптимизацию управляемой без потери статистической мощности. Фреймворк автоматически выбирает оптимальную дивергенцию и гиперпараметры, исключая ручной подбор.

Для проверки авторы использовали нетривиальный полигон — данные физики высоких энергий. Логика выбора: детекторы частиц требуют самых чувствительных «детекторов различий» в мире, поскольку ищут редкие события, выходящие за рамки Стандартной модели. Если фреймворк способен зафиксировать сигнал редкой частицы на фоне шума, он справится и с микроутечкой данных в ИИ-модели. Дополнительно фреймворк тестировался на аудите дифференциальной приватности и на нескольких алгоритмах машинного забывания: Selective Synaptic Dampening, pruning и random label. По всем сценариям новый подход восстановил или превзошёл результаты базовых методов при существенно меньшем ручном вмешательстве.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Google Research предложила новый фреймворк аудита машинного забывания

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента