4 июня 2025 года администрация Трампа выпустила указ «Disclosure Avoidance for Statistical Products», который запрещает использование шумового зашумления (noise infusion) в любых статистических продуктах. Вместо этого в качестве предпочтительного метода защиты предписывается группирование (coarsening), а подавление (suppression) разрешено только в крайнем случае. Указ стал неожиданностью для экспертов: он был принят без публичных консультаций и вопреки многолетней практике.

Шумовое зашумление — это добавление случайных значений в данные, чтобы скрыть информацию о конкретных респондентах, сохраняя при этом общие статистические закономерности. Этот метод лежит в основе дифференциальной приватности — стандарта, используемого крупными технологическими компаниями (Apple, Google) и всё чаще применяемого при обучении ИИ-моделей. Запрет зашумления означает, что для соблюдения приватности Бюро переписи населения и Бюро экономического анализа будут вынуждены либо группировать данные в более крупные категории, либо полностью их скрывать. Особенно пострадают данные по малонаселенным районам и узким отраслям — их просто перестанут публиковать в детализации.

Реакция профессионального сообщества была незамедлительной. 17 июня пять ассоциаций, включая Population Association of America и Association of Public Data Users, выпустили совместное заявление, назвав указ «подрывом процессов, выработанных десятилетиями для обеспечения прозрачности и доверия». Бывший главный ученый Бюро переписи Джон Абоуд привёл список затронутых продуктов: система OnTheMap для реагирования на чрезвычайные ситуации, квартальные показатели рабочей силы, данные о создании и ликвидации рабочих мест и другие. Многие из них использовали шумовое зашумление и теперь его лишились.

Данные для малых населенных пунктов и отраслей могут стать недоступными из-за необходимости лишь группировки или подавления.

Photo by Ioann-Mark Kuznietsov on Unsplash
Photo by Ioann-Mark Kuznietsov on Unsplash · Источник: 404 Media

Неопределённость вызывает и ретроактивный характер указа: неясно, будут ли удалены ранее опубликованные данные. По данным журналиста NPR Ханси Ло Вана, с сайта Бюро переписи уже исчезли несколько страниц, посвящённых шумовому зашумлению и дифференциальной приватности (позже они были восстановлены). Для ИИ-индустрии это тревожный сигнал: публичные статистические данные часто используются для обучения моделей, особенно в задачах, связанных с демографией, экономикой и социальными науками. Снижение доступности и качества этих данных может негативно сказаться на точности и справедливости алгоритмов.

Хотя указ напрямую не касается ИИ, он создаёт прецедент ограничения методов защиты приватности, которые являются фундаментом для этичного использования данных. Если группирование и подавление станут единственными доступными инструментами, исследователи и разработчики ИИ столкнутся с менее детализированными и потенциально смещёнными датасетами. В долгосрочной перспективе это может замедлить прогресс в областях, где точные микроданные критически важны, — от прогнозирования природных катастроф до анализа рынка труда.