ArXiv — крупнейший репозиторий научных препринтов, где ежегодно размещаются сотни тысяч работ по физике, математике, информатике и смежным дисциплинам. Платформа не является рецензируемым журналом: авторы публикуют статьи до официальной проверки, чтобы быстро поделиться результатами с сообществом. Именно эта открытость сделала ArXiv уязвимым для потока слабо проверенных материалов, сгенерированных с помощью LLM.

Председатель секции компьютерных наук Томас Дитерих объявил в X, что платформа ужесточает санкции. Если препринт содержит «неопровержимые свидетельства» того, что авторы не проверяли вывод языковой модели, все подписавшие статью получат годовой бан. После его истечения любые новые публикации на ArXiv потребуют предварительного принятия в рецензируемом издании или на конференции. Под неопровержимыми свидетельствами понимаются два типа артефактов: галлюцинированные библиографические ссылки на несуществующие работы и мета-комментарии самой модели — например, фразы вроде «вот краткое изложение на 200 слов, хотите что-то изменить?» или «данные в таблице иллюстративные, подставьте реальные числа из ваших экспериментов».

Процедура применения санкций двухступенчатая: сначала модератор документирует нарушение, затем председатель секции подтверждает решение. Авторы могут подать апелляцию. Дитерих подчеркнул, что политика касается исключительно случаев с неопровержимыми доказательствами — платформа не намерена преследовать за само использование ИИ-инструментов.

После бана все последующие публикации на ArXiv потребуют предварительного принятия в рецензируемом журнале или конференции.

STKS511_AI_SLOP_C
STKS511_AI_SLOP_C · Источник: The Verge AI

Это не первый шаг ArXiv против низкокачественного контента. В прошлом году платформа ограничила публикацию обзорных статей и позиционных материалов по компьютерным наукам: теперь они принимаются только при наличии рецензии и факта принятия на конференции или в журнале. Тогда ArXiv объяснил решение тем, что языковые модели сделали производство подобных текстов тривиальным, а большинство поступающих обзоров представляют собой «не более чем аннотированные библиографии без содержательного обсуждения открытых исследовательских вопросов».

Проблема шире одной платформы. Рост числа статей с галлюцинированными ссылками фиксируют и рецензируемые журналы: несуществующие источники проходят через редакционный фильтр, если рецензенты не проверяют каждую ссылку вручную. ArXiv, работающий без обязательной рецензии, оказался особенно уязвим. Новые санкции переносят ответственность туда, где она и должна быть: на авторов, которые подписывают статью и тем самым удостоверяют её содержание — вне зависимости от того, каким инструментом текст был создан.