Исследовательская группа из Imperial College London, Stanford University и Internet Archive проанализировала репрезентативную выборку англоязычных сайтов из архива Wayback Machine — около 10 000 URL в месяц на протяжении 33 месяцев с августа 2022 по май 2025 года. Для детектирования ИИ-текстов использовался классификатор Pangram v3, показавший лучшие результаты в собственных тестах команды по пяти параметрам надёжности. Главный количественный вывод: к середине 2025 года 35% всех новых сайтов полностью или частично написаны с помощью генеративных моделей. До появления ChatGPT в конце 2022 года этот показатель был статистически неотличим от нуля.
Исследователи проверяли шесть распространённых гипотез о том, как ИИ меняет веб. Статистически подтвердились только две. Первая — «семантическое сжатие»: ИИ-тексты на 33% более похожи друг на друга, чем материалы, написанные людьми. Авторы объясняют это тем, что языковые модели тяготеют к среднему значению своих обучающих данных, сужая тем самым диапазон идей и точек зрения в публичном пространстве. Вторая подтверждённая гипотеза — «сдвиг позитивности»: ИИ-контент демонстрирует на 107% более высокий уровень положительной тональности по сравнению с человеческим. Исследователи связывают это с известной склонностью языковых моделей к угодливости и избыточному оптимизму. Соавтор работы Йонас Долезал из Stanford считает, что моделям нужно больше «трения» и выраженного голоса: «Вместо того чтобы заставлять модели быть идеально послушными, стоит позволить им иметь более отчётливую личность — это поможет им стать творческим партнёром, а не заменой человеческого голоса».
| Гипотеза | Подтверждена? | Ключевые данные |
|---|---|---|
| Семантическое сжатие | Да | ИИ-тексты на 33% более похожи друг на друга, чем человеческие |
| Сдвиг позитивности | Да | ИИ-контент на 107% позитивнее человеческого по тональности |
| Исчезновение авторских стилей | Нет | Статистически значимой корреляции не обнаружено |
| Снижение плотности информации | Нет | Статистически значимой корреляции не обнаружено |
| Падение числа внешних ссылок | Нет | Статистически значимой корреляции не обнаружено |
| Рост фактических ошибок (распад истины) | Нет | Не подтверждено, но методология признана ограниченной |
Четыре другие гипотезы не нашли статистического подтверждения. Индивидуальные авторские стили не исчезают, количество внешних ссылок не падает, плотность информации не снижается. Не подтвердилась и гипотеза о росте фактических ошибок — так называемый «распад истины». Для её проверки команда использовала GPT-4o-mini для извлечения верифицируемых утверждений с сайтов (до пяти на страницу), а затем 50 разметчиков-людей проверяли эти утверждения по внешним источникам. Статистически значимой корреляции между долей ИИ-контента и долей опровергнутых утверждений обнаружено не было. Однако сами авторы признают методологическую слабость этого блока: проверке подверглось лишь около 250 сайтов против примерно 330 000 URL в полной выборке. Кроме того, метод улавливает только явно опровержимые факты, оставляя за скобками расплывчатые, внушающие или принципиально непроверяемые утверждения, которые в ИИ-текстах, вероятно, встречаются чаще.
ИИ-тексты на 33% семантически похожи друг на друга больше, чем человеческие — интернет сужает диапазон идей.

Отдельный блок исследования — опрос 853 взрослых американцев. Большинство респондентов верили во все негативные гипотезы, включая четыре, которые данные не подтвердили. Например, 83% согласились с тем, что индивидуальные стили письма исчезают в пользу обезличенного ИИ-голоса. Люди, редко использующие ИИ, чаще верили в негативные эффекты, чем активные пользователи (88,3% против 76,2%). Среди скептиков разрыв ещё шире: 91,3% против 71,1%.
Главный долгосрочный риск, который формулируют авторы, — не фактические ошибки, а «апатия к реальности»: по мере того как ИИ-текст становится неотличим от человеческого, пользователи могут начать огульно обесценивать достоверность любой онлайн-информации. Параллельно высокая доля синтетического контента превращает теоретический риск «коллапса модели» — деградации ИИ при обучении на собственных выходных данных — в практическую проблему. В качестве мер исследователи рекомендуют криптографические стандарты происхождения контента, в частности C2PA, а также пересмотр алгоритмов поиска и рекомендаций в пользу семантического разнообразия. Команда уже сотрудничает с Internet Archive для превращения разового исследования в постоянный мониторинговый инструмент. Ограничения работы авторы признают сами: анализировались только англоязычные тексты, изображения и видео остались за рамками, а вся детекция опирается на один классификатор, чья точность может меняться по мере эволюции моделей.


