Каждый третий новый сайт в интернете создан с помощью ИИ — исследование Stanford и Imperial College

404 Media·27 апр.·1 минИндустрия

К середине 2025 года 35% новых веб-сайтов создавались с участием ИИ — против нуля до запуска ChatGPT в конце 2022 года. Такие данные получили исследователи Stanford, Imperial College London и Internet Archive, проанализировав 33 месяца веб-данных.

Кратко

—Доля ИИ-сгенерированных и ИИ-ассистированных сайтов выросла с нуля (до ноября 2022) до 35% к середине 2025 года — по данным анализа Wayback Machine через детектор Pangram v3.
—Из шести проверенных гипотез подтвердились только две: ИИ делает интернет менее семантически разнообразным и более равномерно позитивным по тону.
—Гипотезы о росте дезинформации и снижении качества цитирования источников не подтвердились — роста проверяемых ложных утверждений не обнаружено.
—Исследователи отмечают, что искали именно проверяемую ложь, а не неточности или галлюцинации общего характера — методологическое ограничение, влияющее на интерпретацию.
—Команда планирует создать инструменты непрерывного мониторинга и изучить, какие категории сайтов наиболее подвержены ИИ-генерации.

Глоссарий · 3 термина▾

Wayback Machine: Публичный архив интернета от Internet Archive, хранящий снимки веб-страниц с 1990-х годов и доступный для исследований веб-истории.
Семантическое разнообразие: Степень различия текстов по смыслу, лексике и структуре; его снижение означает, что разные источники пишут об одном и том же всё более похожими словами.
Pangram: Программный детектор ИИ-генерированного текста, разработанный для исследовательских целей.

Исследовательская группа из Stanford, Imperial College London и Internet Archive обнаружила, что к середине 2025 года примерно 35% вновь создаваемых веб-сайтов содержат ИИ-генерированный или ИИ-ассистированный контент. До запуска ChatGPT в ноябре 2022 года эта доля была нулевой.

Для исследования авторы использовали детектор Pangram v3 и данные Wayback Machine — архива интернета, хранящего снимки сайтов с 1990-х. Выборка охватила 33 месяца и позволила проследить динамику по шести категориям возможных проблем: распространение дезинформации, снижение качества цитирования, семантическое однообразие, монотонность тона, потеря разнообразия точек зрения и деградация стиля письма.

Из шести гипотез подтвердились только две. Первая: ИИ-контент снижает семантическое разнообразие — разные сайты на похожие темы становятся ближе по лексике и структуре. Вторая: тональность текстов становится более однородно позитивной. Остальные четыре гипотезы не нашли статистического подтверждения: роста проверяемых ложных утверждений или деградации цитирования зафиксировано не было.

Из шести проверенных гипотез подтвердились только две: ИИ делает интернет менее семантически разнообразным и более равномерно позитивным по тону.

Image via Alex Shuper / Unsplash+ · Источник: 404 Media

Один из авторов, Йонаш Долежал, оговорился: команда искала именно проверяемую ложь — утверждения, которые можно верифицировать по внешним источникам, — а не галлюцинации или фактические неточности в широком смысле. Это методологическое ограничение важно для интерпретации: отсутствие роста проверяемой дезинформации не означает, что качество контента в целом не снизилось.

Дальнейший план команды — разработка инструментов непрерывного мониторинга и анализ того, какие категории сайтов — новости, корпоративные страницы, блоги, e-commerce — наиболее подвержены ИИ-генерации. Результаты исследования актуальны для дискуссии о том, как инструменты детекции ИИ-текста справляются с реальным масштабом явления.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Каждый третий новый сайт в интернете создан с помощью ИИ — исследование Stanford и Imperial College

Кратко

Читать также

OpenAI добавила Codex в мобильное приложение ChatGPT

Motorola Razr Fold 2026 за $1900: больше экран, батарея и камеры, чем у Samsung

Суд присяжных решает судьбу OpenAI: основные вопросы дела Маска против Альтмана