Первый дипфейк появился не в эпоху ChatGPT и даже не на Reddit в 2017 году. В 1997 году стартап Video Rewrite заставил Джона Кеннеди произнести фразу «Я не знаком с Форрестом Гампом» — вручную подогнав раскадровку президентского рта под нужные фонемы. С тех пор технология прошла путь от ручного монтажа до генеративных нейросетей, доступных любому пользователю смартфона.

Генеративный ИИ породил два социологических феномена, которые меняют отношение общества к доказательствам. Первый — «дивиденд лжеца»: если гиперреалистичный компромат можно сгенерировать из воздуха, то любые видео- и аудиоулики автоматически теряют юридическую и репутационную силу. Достаточно заявить, что запись сфабрикована. Второй феномен — «апатия к правде»: столкнувшись с постоянным потоком потенциальных фальсификаций, люди перестают тратить когнитивные ресурсы на проверку и вырабатывают селективную слепоту. Показательный пример того, как реконтекстуализация работает без всякого ИИ: в 2018 году по индийским группам WhatsApp разошлось видео якобы с похищением детей, вызвавшее панику по всему субконтиненту. На деле это был фрагмент вьетнамской социальной рекламы о безопасности детей.

Против дипфейков уже существуют технические методы детектирования. Один из них основан на анализе сердечного ритма по видео (heart rate estimation): алгоритм фиксирует едва заметные изменения цветового оттенка кожи, вызванные насыщением крови кислородом при дыхании. Если ритмические изменения совпадают с паттернами вдоха и выдоха — с вероятностью 99,1% перед камерой живой человек. Нейросеть такой физиологии воспроизвести не может.

«Апатия к правде»: люди перестают разбираться в подлинности контента и вырабатывают селективную слепоту к любым резонансным событиям.

Для голосовых дипфейков применяется анализ микроколебаний голосовых складок в диапазоне 8–12 Гц. Детектор использует эффект Доплера для отслеживания частотных сдвигов в аудиосигнале и анализирует вибрации, характерные для живого голосового аппарата — складок, резонаторов лицевой маски и грудной клетки. У синтезированного голоса эти низкочастотные компоненты отсутствуют или сглажены до неразличимости.

Сложнее всего дело обстоит с текстом. Существующие ИИ-детекторы работают по статистическим паттернам — предсказуемости, однородности стиля, распределению токенов. Но по мере того как языковые модели становятся мощнее, а пользователи учатся их «очеловечивать», граница между машинным и человеческим письмом размывается. Эксперты сходятся во мнении, что детекторы текста в нынешнем виде не успевают за развитием генеративных моделей.

Гонка между создателями дипфейков и разработчиками детекторов напоминает историю систем защиты от копирования: каждую защиту рано или поздно обходят, но это не делает защиту бессмысленной — она повышает стоимость атаки. Пока генеративный ИИ продолжает усложняться, методы liveness detection развиваются параллельно. Вопрос не в том, кто победит окончательно, а в том, насколько дорого обойдётся каждая следующая фальсификация.