Согласно исследованию Ahrefs, в апреле 2025 года лишь четверть новых веб-страниц можно было считать написанными человеком. Остальные 74,2% содержали сгенерированный материал — и это только текст. С видео и аудио ситуация не лучше: отчёт Regula Deepfake Trends 2024 фиксирует, что каждая вторая компания в мире уже сталкивалась с инцидентами, где дипфейки использовались для мошенничества, подделки личности или корпоративных атак. Ущерб от таких инцидентов исчисляется сотнями тысяч долларов.
Детекция дипфейков развивалась вместе с их генерацией — и каждый виток этой гонки хорошо иллюстрирует, насколько быстро устаревают методы обнаружения.
| Период | Метод детекции | Ключевой проект | Ограничение |
|---|---|---|---|
| 2018–2020 | Анализ частоты и последовательности морганий | In Ictu Oculi (Eye Blinking) | Работал только против ранних моделей с редкими кадрами закрытых глаз |
| ~2019–2021 | Выделение области лица + классификатор на крупном датасете | FaceForensics++ | Модели, не представленные в датасете, обходили детектор |
| 2021–2026 | Анализ биосигналов кровотока через изменения цвета кожи | Intel FakeCatcher | Новые генераторы учатся корректнее воспроизводить физиологические сигналы |
Первые массовые детекторы появились в 2018–2020 годах и эксплуатировали очевидные слабости ранних генеративных моделей. Одна из самых цитируемых работ того периода — In Ictu Oculi: Exposing ИИ Generated Fake Face Videos by Detecting Eye Blinking. Исследователи заметили, что модели почти не воспроизводили естественное моргание: в обучающих датасетах просто не хватало изображений людей с закрытыми глазами. Детектор анализировал частоту и последовательность морганий — если человек на видео не моргал в течение нескольких секунд, запись помечалась как подозрительная.
Первые детекторы 2018–2020 годов искали аномалии моргания: ранние генеративные модели почти не воспроизводили его из-за нехватки обучающих данных.
Следующий этап ознаменовался переходом от поиска единичных артефактов к универсальным моделям на крупных датасетах. Ключевым проектом стал FaceForensics++: авторы предложили стандартный benchmark и доменно-специфичный подход. Система сначала отслеживает и выделяет область лица, затем передаёт её в классификационную сеть. Такой подход позволил обучать детекторы на разнообразных типах манипуляций и сравнивать их результаты в единых условиях. FaceForensics++ фактически стал отраслевым стандартом для оценки детекторов на несколько лет вперёд.
После 2021 года генеративные модели научились синхронизировать движения губ с речью, учитывать освещение и угол камеры и работать в реальном времени. Визуальные артефакты, на которых строились прежние детекторы, исчезли. Индустрия ответила принципиально иными подходами. Показательный пример — Intel FakeCatcher: вместо анализа пикселей система исследует микроскопические изменения цвета кожи, связанные с кровотоком. Для человеческого глаза они незаметны, но генеративные модели долго воспроизводили их некорректно. FakeCatcher выделяет несколько областей лица, извлекает биологические сигналы и анализирует их пространственную и временную согласованность, после чего классификатор оценивает вероятность подделки.
Однако и этот подход не решает фундаментальной проблемы: модели генерации развиваются быстрее, чем способы их обнаружения. Детекторы, обученные на артефактах конкретных моделей, теряют эффективность при появлении новых генераторов. Именно эту проблему пытается адресовать Microsoft-Northwestern-Witness Benchmark (MNW). Датасет содержит более 50 тысяч артефактов — изображения, видео, аудио и мультимодальный контент, — сгенерированных большим набором современных нейросетей, а не одной моделью. Ключевая идея: детектор не должен запоминать особенности конкретного генератора, он должен обобщать признаки синтетического контента как класса. Авторы подчёркивают, что MNW предназначен для оценки детекторов, а не для их обучения или коммерческого использования. Датасет планируется обновлять дважды в год — весной и осенью, — чтобы учитывать новые генераторы и новые способы обхода детекторов.
MNW отражает более широкий сдвиг в отрасли: детекция перестаёт быть разовой проверкой «настоящее или фейк» и превращается в часть инфраструктуры цифрового доверия. В среде, где видео, голос и изображение больше не являются самостоятельным доказательством, задача детектора — не дать окончательный ответ, а обеспечить постоянную верификацию контента в условиях постоянно меняющихся генеративных моделей.
