Журналисты The New York Times протестировали точность Google AI Overviews с помощью бенчмарка SimpleQA — набора из 4 тысяч вопросов с однозначными проверяемыми ответами. Gemini 2.5 справился с 85% из них, Gemini 3 — с 91%. Цифры выглядят неплохо в отрыве от контекста, но Google обрабатывает миллиарды запросов в сутки: даже 9% ошибок превращаются в десятки миллионов неверных ответов ежечасно.

Google AI Overviews — это блок с ИИ-сводкой, который появляется в верхней части поисковой выдачи с 2024 года (в тестовом режиме функция существовала с 2023-го под названием Search Generative Experience). Система работает на основе RAG — Retrieval-Augmented Generation. Это означает, что модель не опирается на знания, полученные при обучении, а в реальном времени извлекает релевантные страницы из поискового индекса Google и передаёт их в языковую модель Gemini, которая формирует связный ответ. К каждому утверждению прикрепляются ссылки на источники. Для сложных запросов предусмотрено ветвление: исходный вопрос разбивается на несколько подзапросов, и модель отвечает на каждый отдельно.

МодельТочность по SimpleQAДоля ошибок
Gemini 2.585%15%
Gemini 391%9%

Ошибки могут появляться на любом из четырёх этапов. Первый — интерпретация запроса: модель может неверно понять намерение пользователя или некорректно разбить его на части. Второй — поиск и ранжирование источников: в топе выдачи оказываются релевантные, а не обязательно достоверные страницы. Третий — компиляция ответа: задача модели не найти истину, а сгладить противоречия между источниками и выбрать наиболее часто упоминаемые факты, что может привести к выводам, противоположным действительности. Четвёртый — постобработка: языковая модель оптимизирует правдоподобие текста, а не его фактическую точность.

Google AI Overviews работает на технологии RAG: модель извлекает веб-контент в реальном времени и компилирует ответ.

Авторы исследования указывают на системную проблему доверия. Google выстраивает интерфейс так, что пользователь получает готовый ответ и не переходит по ссылкам. Это принципиально отличается от классического поиска, где человек сам оценивал источники и сопоставлял данные. Ответственность за интерпретацию фактически перешла к модели, а пользователи перестали её проверять. Особенно это критично в медицинских, юридических и финансовых запросах, где цена ошибки высока.

Для сравнения: в швейцарской клинике в 1970-е годы врачи ошибались в диагностике примерно в 30% случаев, к 1990-м этот показатель снизился вдвое. Медицина компенсирует человеческую погрешность через консилиумы, повторные анализы и чек-листы. В авиации дублируют системы и требуют коллективных решений. ИИ-поиск пока не имеет встроенных механизмов верификации, сопоставимых с этими практиками.

Критики исследования указывают на несколько слабых мест. Вопросы SimpleQA — столицы государств, даты событий, однозначные факты — мало похожи на реальные пользовательские запросы, которые чаще касаются сравнения товаров или поиска локальных заведений. Кроме того, из-за недетерминированности языковых моделей результаты теста невоспроизводимы: на один и тот же вопрос модель может ответить верно, а через минуту — с ошибкой. Наконец, вопросы бенчмарка находятся в открытом доступе, что теоретически позволяет разработчикам «натренировать» модель на правильные ответы именно для этого теста.

Однако даже если отложить споры о методологии, остаётся структурная проблема: ни поисковик, ни языковая модель не создают знания — они агрегируют то, что уже есть в сети. Интернет противоречив и фрагментирован, и модель наследует все эти недостатки. Раньше пользователь сам фильтровал источники и включал критическое мышление. Теперь этот шаг всё чаще пропускается.