Исследователи Корнелльского университета Хэл Тридман, Тинвэй Чжан и Виталий Шматков опубликовали препринт «Deep-research agents can be poisoned via user-generated content». Они показали, что короткие фрагменты текста на сайтах с пользовательским контентом (UGC), таких как Reddit, Quora и Wikipedia, способны манипулировать работой глубоких исследовательских агентов — инструментов, которые в реальном времени извлекают цитаты из интернета для ответов ChatGPT и Google ИИ Search. В экспериментах учёные выяснили, что достаточно 13 слов в поединенном комментарии, чтобы изменить вывод агента для целого кластера связанных запросов. При этом почти половина всех ссылок в ответах ИИ-поиска ведёт на UGC-сайты.

Механизм атаки основан на том, что многие языковые модели оценивают релевантность текста по лексическому сходству с запросом пользователя. Если рекламная вставка на Reddit повторяет ключевые слова вопроса, LLM с высокой вероятностью включит её в ответ как достоверный источник. Бренды и маркетинговые агентства уже освоили этот приём AEO (ИИ-engine optimization) — they создают фальшивые обсуждения, чтобы продвигать свои товары. 404 Media ранее писала о сабреддите r/biohackers, который запретил обсуждение пептидов из-за наплыва рекламных постов, и о компаниях вроде RedRover, обещающих брендам влияние на ИИ-выдачу.

Исследователи подчёркивают, что проблема усугубляется добровольным характером модерации на Reddit и Wikipedia. Модераторы и редакторы не в состоянии оперативно отслеживать все попытки манипуляции, особенно когда один комментарий может повлиять на множество запросов. В то же время экономические стимулы для AEO растут: компании активно внедряют на свои сайты контент, оптимизированный под ИИ-агентов, а немецкий суд уже признал Google ответственным за содержание ИИ Overviews.

Почти половина цитат ИИ-поиска приходится на пользовательский контент.

Image: Reddit
Image: Reddit · Источник: 404 Media

Эксперимент Корнелльской группы проводился в изолированной среде: исследователи брали данные из API Reddit и подменяли информацию на уровне системы поиска агента, не публикуя вредоносные сообщения на живом сайте. Они подчеркнули, что размещение отравленного контента в открытом доступе загрязнило бы информационную среду, что этически неприемлемо. Тем не менее полученные данные подтверждают, что атаку легко реализовать в реальных условиях — достаточно написать короткий коммерческий пост в популярной ветке.

Эта работа — не первое свидетельство уязвимости ИИ-поиска к манипуляциям. Ранее художники, знаменитости и обычные пользователи замечали, как ИИ Search выдаёт неточные или абсурдные сведения, взятые из неавторитетных источников. Исследование даёт формальное объяснение этому явлению и поднимает вопрос о долгосрочной устойчивости модели открытого веба перед лицом автоматизированного AEO.