Исследователи из США и Китая проанализировали данные 26 000 учащихся из 61 школы, которые начали использовать ИИ в разное время. Метод разности разностей (difference-in-differences) позволил сравнить траекторию успеваемости каждого студента до и после первого применения ИИ, а также с теми, кто ИИ не использовал. Самостоятельное распространение инструментов — от DeepSeek до Doubao и ChatGLM — дало естественный эксперимент, где группы формировались не по заданию учёных, а по реальному поведению.
Эффект оказался парадоксальным. В первые шесть месяцев после начала использования ИИ оценки за домашние задания выросли на 18%, а среднее время выполнения сократилось с 64 до 45 минут. Однако результаты ежемесячных закрытых экзаменов упали на 20%. Ещё важнее, что негативный эффект на высокозначимые вступительные экзамены — китайские Zhongkao и Gaokao — проявился только через два года. Исследователи отмечают, что краткосрочные исследования (типичные для многих экспериментов с ИИ в образовании) полностью упускают этот долгосрочный ущерб.
| Показатель | До ИИ | После ИИ (6 месяцев) | Изменение |
|---|---|---|---|
| Домашние задания, баллы | базовый уровень | +18% | +18% |
| Время на домашку, мин | 64 | 45 | −30% |
| Закрытые экзамены, баллы | базовый уровень | −20% | −20% |
| Вступительные экзамены (2 года) | базовый уровень | −18..−24% | −18..−24% |
Авторы связывают падение с аутсорсингом. 81% студентов, использовавших ИИ более пяти месяцев, выполняли домашние задания быстрее, чем самый быстрый студент без ИИ. При этом их экзаменационные баллы были низкими. Сочетание «быстро, качественно на дому, плохо на экзамене» — надёжный маркер того, что ИИ делал работу за ученика, а не вместе с ним. Однако те, кто тратил на домашку столько же времени, сколько и не-пользователи, показывали на экзаменах те же результаты, но с лучшими домашними оценками. То есть ИИ не вреден по определению — он вредит, когда замещает самостоятельное мышление.
Полный негативный эффект на вступительные экзамены Zhongkao и Gaokao проявляется только через два года, поэтому краткосрочные исследования его не замечают.

Наибольшие потери зафиксированы по социальным наукам: политика и география потеряли 27%, STEM-предметы — 22%, английский — 17%, китайский — 9%. Это неожиданно, поскольку предыдущие эксперименты в основном касались математики, программирования и иностранных языков. Эффект также сильнее у младших школьников (24% против 17%), у мальчиков (21,6% против 18,4%) и у учеников из верхней трети по успеваемости (24% против 16%). Наблюдается дозозависимый эффект: до одного часа ИИ в неделю — потеря около 5%, пять часов и более — 30%.
Парадокс реакции объясняется тем, что учитель видит только один предмет, где падение на 20% не выглядит аномальным, а агрегированный эффект на школьный округ достигает заметной величины лишь к июню 2025 года, когда накопилась достаточная длительность использования. Сами студенты часто не связывают трудности самостоятельного обучения с ухудшением понимания. Авторы предлагают меры: честно информировать о долгосрочных издержках, увеличивать вес очных экзаменов и отслеживать время выполнения домашек вместо оценок. ИИ обесценивает домашнее задание как сигнал о знаниях — среди ИИ-пользователей с высокими домашними баллами экзамены могут быть низкими.



