Ежегодный индекс ИИ Стэнфордского университета за 2026 год, подготовленный группой Human-Centered AI под руководством главного редактора Ши Саджадие, зафиксировал противоречивую картину. Агентные системы быстро приближаются к человеческому уровню на рутинных цифровых задачах: открыть базу данных, применить правило политики, обновить запись клиента. На тесте WebArena лучшие модели отстают от человеческого базового показателя в 78,2% всего на четыре процентных пункта. Год назад разрыв был несопоставимо больше.
Однако та же работа выявила принципиальное ограничение: модели хорошо справляются с точечными поисковыми запросами, но теряются, когда нужно сопоставить несколько фрагментов информации или применить условие к длинному документу. Чем дольше и сложнее задача, тем выше вероятность того, что модель начнёт подмешивать нерелевантные факты или уверенно утверждать то, чего нет в исходных данных. Это явление называют галлюцинациями — и именно оно превращает длинные сессии с чатботами из удобного инструмента в источник систематических ошибок.
Насколько серьёзна эта проблема, показал эксперимент, описанный в журнале Nature. Медицинский исследователь Альмира Османович Тунстрём из Гётеборгского университета вместе с коллегами придумала несуществующую болезнь «биксониманию» — якобы глазное расстройство от синего света экранов — и опубликовала о ней фиктивные научные статьи. Большинство крупных языковых моделей, включая Google Gemini, вскоре начали описывать биксониманию как реальное заболевание, ссылаясь на эти же статьи. Механизм прост: боты индексируют всё, что попадает в открытый доступ, не имея встроенного фильтра достоверности.
Claude Opus 4.5 решает 66,3% задач OSWorld, отставая от студентов-программистов лишь на 6 процентных пунктов.
Ещё более тяжёлые последствия описала газета New York Times. Пожилой пациент Джо Райли, которому поставили диагноз рак белых кровяных клеток, вместо того чтобы следовать рекомендациям онколога, провёл многочасовые сессии с Perplexity. На основе сводок чатбота он убедил себя, что у него редкое осложнение — трансформация Рихтера, — при котором назначенное лечение якобы противопоказано. Даже письма специалистов по этому осложнению, указывавших на ошибки в материалах Perplexity, не изменили его позиции. Когда Райли наконец согласился на лечение, терапевтическое окно было упущено. Его сын Бен Райли написал, что ИИ способен «подтверждать и усиливать наше ошибочное понимание того, что с нами происходит физически и медицински».
Этот случай перекликается с историей Адама Рейна, который в прошлом году покончил с собой после продолжительных разговоров с ChatGPT о суицидальных мыслях. Оба случая объединяет одна динамика: человек погружается в диалог с моделью настолько глубоко, что теряет внешние точки опоры — мнения врачей, близких, независимых экспертов.
Исследователи и практики сходятся в одном: безопаснее всего использовать языковые модели для чётко ограниченных задач с проверяемым результатом — составить черновик письма, найти конкретную цифру, сгенерировать варианты кода. Чем длиннее и открытее задача, тем выше риск накопления ошибок. Один из учёных, комментировавших эксперимент с биксониманией, сформулировал это как требование к индустрии: «Нужно оценивать модели и выстраивать конвейер непрерывной проверки». Пока такого конвейера нет — ответственность за верификацию остаётся на стороне пользователя.



