Исследовательская группа из Stanford, Imperial College London и Internet Archive обнаружила, что к середине 2025 года примерно 35% вновь создаваемых веб-сайтов содержат ИИ-генерированный или ИИ-ассистированный контент. До запуска ChatGPT в ноябре 2022 года эта доля была нулевой.

Для исследования авторы использовали детектор Pangram v3 и данные Wayback Machine — архива интернета, хранящего снимки сайтов с 1990-х. Выборка охватила 33 месяца и позволила проследить динамику по шести категориям возможных проблем: распространение дезинформации, снижение качества цитирования, семантическое однообразие, монотонность тона, потеря разнообразия точек зрения и деградация стиля письма.

Из шести гипотез подтвердились только две. Первая: ИИ-контент снижает семантическое разнообразие — разные сайты на похожие темы становятся ближе по лексике и структуре. Вторая: тональность текстов становится более однородно позитивной. Остальные четыре гипотезы не нашли статистического подтверждения: роста проверяемых ложных утверждений или деградации цитирования зафиксировано не было.

Из шести проверенных гипотез подтвердились только две: ИИ делает интернет менее семантически разнообразным и более равномерно позитивным по тону.

Image via Alex Shuper / Unsplash+
Image via Alex Shuper / Unsplash+ · Источник: 404 Media

Один из авторов, Йонаш Долежал, оговорился: команда искала именно проверяемую ложь — утверждения, которые можно верифицировать по внешним источникам, — а не галлюцинации или фактические неточности в широком смысле. Это методологическое ограничение важно для интерпретации: отсутствие роста проверяемой дезинформации не означает, что качество контента в целом не снизилось.

Дальнейший план команды — разработка инструментов непрерывного мониторинга и анализ того, какие категории сайтов — новости, корпоративные страницы, блоги, e-commerce — наиболее подвержены ИИ-генерации. Результаты исследования актуальны для дискуссии о том, как инструменты детекции ИИ-текста справляются с реальным масштабом явления.