35% новых сайтов уже написаны ИИ: интернет становится однообразнее и бодрее

The Decoder·28 апр.·3 минИсследованияИндустрия

К середине 2025 года 35% всех новых англоязычных сайтов полностью или частично созданы с помощью ИИ — такой вывод сделали исследователи Imperial College London, Internet Archive и Stanford University, проанализировав данные Wayback Machine за 33 месяца. До запуска ChatGPT в конце 2022 года этот показатель был близок к нулю.

Кратко

—35% новых сайтов к маю 2025 года полностью или частично написаны ИИ — против нуля до конца 2022 года.
—ИИ-тексты на 33% семантически похожи друг на друга больше, чем человеческие — интернет сужает диапазон идей.
—Позитивный тон ИИ-контента превышает человеческий на 107% — исследователи связывают это с склонностью моделей к угодливости.
—Гипотезы об исчезновении авторских стилей, росте фактических ошибок и падении плотности информации статистически не подтвердились.
—Исследователи предупреждают о риске «апатии к реальности» и рекомендуют криптографические стандарты происхождения контента типа C2PA.

Глоссарий · 7 терминов▾

Семантическое сжатие: Сужение диапазона идей и смыслов в текстах — когда контент становится всё более похожим друг на друга по содержанию и тематике.
Сдвиг позитивности: Статистически выраженное смещение тональности текстов в сторону положительных оценок и оптимистичных формулировок.
Коллапс модели: Деградация языковой модели, происходящая при обучении на данных, которые сама же модель или аналогичные ей сгенерировали ранее.
C2PA: Открытый технический стандарт криптографической маркировки контента, позволяющий верифицировать происхождение и историю изменений медиафайлов и текстов.
Апатия к реальности: Состояние, при котором пользователи перестают доверять онлайн-информации в целом из-за невозможности отличить человеческий контент от синтетического.
Wayback Machine: Публичный архив интернета, поддерживаемый организацией Internet Archive, хранящий исторические снимки веб-страниц.
Сюкофантность модели: Склонность языковых моделей давать чрезмерно одобрительные, угодливые ответы вместо объективных или критических.

Исследовательская группа из Imperial College London, Stanford University и Internet Archive проанализировала репрезентативную выборку англоязычных сайтов из архива Wayback Machine — около 10 000 URL в месяц на протяжении 33 месяцев с августа 2022 по май 2025 года. Для детектирования ИИ-текстов использовался классификатор Pangram v3, показавший лучшие результаты в собственных тестах команды по пяти параметрам надёжности. Главный количественный вывод: к середине 2025 года 35% всех новых сайтов полностью или частично написаны с помощью генеративных моделей. До появления ChatGPT в конце 2022 года этот показатель был статистически неотличим от нуля.

Исследователи проверяли шесть распространённых гипотез о том, как ИИ меняет веб. Статистически подтвердились только две. Первая — «семантическое сжатие»: ИИ-тексты на 33% более похожи друг на друга, чем материалы, написанные людьми. Авторы объясняют это тем, что языковые модели тяготеют к среднему значению своих обучающих данных, сужая тем самым диапазон идей и точек зрения в публичном пространстве. Вторая подтверждённая гипотеза — «сдвиг позитивности»: ИИ-контент демонстрирует на 107% более высокий уровень положительной тональности по сравнению с человеческим. Исследователи связывают это с известной склонностью языковых моделей к угодливости и избыточному оптимизму. Соавтор работы Йонас Долезал из Stanford считает, что моделям нужно больше «трения» и выраженного голоса: «Вместо того чтобы заставлять модели быть идеально послушными, стоит позволить им иметь более отчётливую личность — это поможет им стать творческим партнёром, а не заменой человеческого голоса».

Гипотеза	Подтверждена?	Ключевые данные
Семантическое сжатие	Да	ИИ-тексты на 33% более похожи друг на друга, чем человеческие
Сдвиг позитивности	Да	ИИ-контент на 107% позитивнее человеческого по тональности
Исчезновение авторских стилей	Нет	Статистически значимой корреляции не обнаружено
Снижение плотности информации	Нет	Статистически значимой корреляции не обнаружено
Падение числа внешних ссылок	Нет	Статистически значимой корреляции не обнаружено
Рост фактических ошибок (распад истины)	Нет	Не подтверждено, но методология признана ограниченной

Четыре другие гипотезы не нашли статистического подтверждения. Индивидуальные авторские стили не исчезают, количество внешних ссылок не падает, плотность информации не снижается. Не подтвердилась и гипотеза о росте фактических ошибок — так называемый «распад истины». Для её проверки команда использовала GPT-4o-mini для извлечения верифицируемых утверждений с сайтов (до пяти на страницу), а затем 50 разметчиков-людей проверяли эти утверждения по внешним источникам. Статистически значимой корреляции между долей ИИ-контента и долей опровергнутых утверждений обнаружено не было. Однако сами авторы признают методологическую слабость этого блока: проверке подверглось лишь около 250 сайтов против примерно 330 000 URL в полной выборке. Кроме того, метод улавливает только явно опровержимые факты, оставляя за скобками расплывчатые, внушающие или принципиально непроверяемые утверждения, которые в ИИ-текстах, вероятно, встречаются чаще.

ИИ-тексты на 33% семантически похожи друг на друга больше, чем человеческие — интернет сужает диапазон идей.

Image description · Источник: The Decoder

Отдельный блок исследования — опрос 853 взрослых американцев. Большинство респондентов верили во все негативные гипотезы, включая четыре, которые данные не подтвердили. Например, 83% согласились с тем, что индивидуальные стили письма исчезают в пользу обезличенного ИИ-голоса. Люди, редко использующие ИИ, чаще верили в негативные эффекты, чем активные пользователи (88,3% против 76,2%). Среди скептиков разрыв ещё шире: 91,3% против 71,1%.

Главный долгосрочный риск, который формулируют авторы, — не фактические ошибки, а «апатия к реальности»: по мере того как ИИ-текст становится неотличим от человеческого, пользователи могут начать огульно обесценивать достоверность любой онлайн-информации. Параллельно высокая доля синтетического контента превращает теоретический риск «коллапса модели» — деградации ИИ при обучении на собственных выходных данных — в практическую проблему. В качестве мер исследователи рекомендуют криптографические стандарты происхождения контента, в частности C2PA, а также пересмотр алгоритмов поиска и рекомендаций в пользу семантического разнообразия. Команда уже сотрудничает с Internet Archive для превращения разового исследования в постоянный мониторинговый инструмент. Ограничения работы авторы признают сами: анализировались только англоязычные тексты, изображения и видео остались за рамками, а вся детекция опирается на один классификатор, чья точность может меняться по мере эволюции моделей.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме