Как устроено цитирование в ChatGPT, Gemini и DeepSeek: разбор сетевого трафика

Подготовлено редакцией Malakhov AI

Habr AI·10 июн.·3 минРоссияКод

Команда платформы RankCaster ИИ вскрыла сетевой обмен веб-клиентов ChatGPT, Gemini и DeepSeek и выяснила, что блок «источников» в каждой системе устроен принципиально по-разному — и почти не пересекается с топ-10 Google или Bing. Из 120 позиций SEO-выдачи совпало лишь 4 URL (3,3%), причём у ChatGPT — ноль совпадений с обоими поисковиками.

Кратко

—Из 120 позиций SEO-топа Google и Bing только 4 URL совпали с источниками нейросетей — все четыре пришлись на Bing, у Google — ноль.
—ChatGPT привязывает каждую цитату к конкретному фрагменту текста через поля start_ix / end_ix с UTF-16-смещениями.
—Gemini использует формат JSPB/PBLite — Protobuf в виде JSON-массива без имён полей, где смысл каждой позиции выведен только эмпирически.
—На запрос «What is GEO?» ChatGPT во всех 10 прогонах цитировал одну и ту же статью arXiv (APR 100%) — стабильнее любого маркетингового блога.
—Работа без аккаунта в ChatGPT не означает анонимности: каждый запрос сопровождается идентификатором устройства и токенами Cloudflare/Sentinel.

Глоссарий · 7 терминов▾

Server-Sent Events (SSE): Механизм передачи данных от сервера к браузеру потоком в реальном времени — сервер отправляет фрагменты ответа по мере их генерации, не дожидаясь завершения.
JSPB / PBLite: Формат сериализации данных Google: сообщение Protobuf записывается как JSON-массив, где поля определяются позицией, а не именем — это затрудняет обратную разработку.
APR (Answer Presence Rate): Показатель стабильности цитирования: доля прогонов из общего числа, в которых конкретный источник попал в ответ нейросети.
GEO (Generative Engine Optimization): Оптимизация контента с целью попасть в источники, которые цитируют генеративные ИИ-системы, — в отличие от классического SEO, ориентированного на поисковую выдачу.
Суррогатная пара: Способ кодирования символов, выходящих за пределы базовой плоскости Unicode, в кодировке UTF-16: один символ занимает два 16-битных элемента вместо одного.
Cloudflare Turnstile: Антибот-проверка от Cloudflare, которая подтверждает, что запрос отправлен реальным браузером, а не автоматизированным скриптом.
batchexecute: Внутренний эндпоинт Google для пакетной отправки удалённых вызовов, используемый в сервисах на базе фреймворка Wiz (Docs, Maps, Gemini и др.).

Принято считать, что если сайт стоит в топе поисковой выдачи, нейросеть с большой вероятностью сошлётся на него в ответе. Исследование команды RankCaster ИИ — платформы для управления видимостью брендов в ответах ИИ-систем — показывает обратное. Авторы запустили четыре англоязычных B2B-запроса по десять раз в каждой из трёх систем, параллельно собрав топ-10 Google и Bing по тем же запросам. Из 120 позиций SEO-выдачи с источниками нейросетей совпало лишь 4 URL — 3,3%. Все четыре совпадения пришлись на Bing; у Google — ноль. У ChatGPT не совпало ни одного URL ни с одним поисковиком.

Чтобы корректно считать совпадения, исследователи сначала разобрали, что именно каждая система называет «источником» на уровне сетевого обмена. Для этого они анализировали трафик веб-клиентов через инструменты разработчика браузера.

Пара поисковик × нейросеть	Совпадений по URL
Google × ChatGPT	0
Google × Gemini	0
Google × DeepSeek	0
Bing × ChatGPT	0
Bing × Gemini	1
Bing × DeepSeek	1
Итого	4 из 120 (3,3%)

ChatGPT отправляет POST-запросы на /conversation и получает ответ потоком через Server-Sent Events. Источники хранятся в массиве annotations[] в объектах url_citation. Каждый объект содержит поля url, title и два числовых смещения — start_ix и end_ix. Это границы конкретного фрагмента сгенерированного текста, к которому привязана ссылка, причём смещения считаются в единицах UTF-16 — как в JavaScript. Практическое следствие: эмодзи и часть CJK-символов занимают две единицы (суррогатная пара), и если считать байтами, цитаты сместятся. Работа без аккаунта не даёт анонимности: каждый запрос сопровождается идентификатором устройства и токенами Cloudflare/Sentinel, которые привязывают обмен к конкретному клиенту. Перед основным запросом клиент получает так называемый conduit_token — доказательство работы клиента, без которого сервер запрос не примет. В части сессий та же процедура дополнительно требовала токен Cloudflare Turnstile, то есть антибот-проверка совмещена с получением токена в одном шаге.

ChatGPT привязывает каждую цитату к конкретному фрагменту текста через поля start_ix / end_ix с UTF-16-смещениями.

Gemini работает через внутренний JavaScript-каркас Google под названием Wiz — тот же, на котором собраны Google Docs, Maps и Photos. Запросы уходят на эндпоинт batchexecute в формате application/x-www-form-urlencoded. Полезная нагрузка упакована в формат JSPB/PBLite: это Protobuf-сообщение, записанное как JSON-массив, где поля определяются не именами, а позицией в массиве. Имён полей в сетевом обмене нет вообще. Открытых.proto-описаний для этого эндпоинта не существует, поэтому смысл каждой позиции авторы восстанавливали эмпирически. Среди предположительно расшифрованных полей — sourceUrl (URL источника), Mf (заголовок), SR (краткое содержание), rs (внутренняя оценка доверия к домену), ls (дата последнего обращения), GK (диапазон символов в ответе — аналог start_ix/end_ix из ChatGPT) и tM (тип слияния, в обмене встречается значение MERGED). Авторы подчёркивают: присутствие полей в потоке — наблюдаемый факт, а их смысловая расшифровка — гипотеза.

Стабильность цитирования авторы измеряли показателем APR (Answer Presence Rate) — в скольких из десяти прогонов источник попал в ответ. В таблицы включались источники с APR не ниже 20%. На концептуальном запросе «What is GEO?» ChatGPT во всех десяти прогонах цитировал статью arXiv 2311.09735 (авторы — исследователи Принстона и Колумбии, именно в ней введён термин GEO — Generative Engine Optimization). APR 100% — выше, чем у любого маркетингового блога в выборке. Также стабильно появлялись Wikipedia и узкоспециализированные блоги.

Исследование затрагивает более широкую проблему, которую в отрасли начали называть GEO — оптимизацией контента под генеративные поисковые системы в противовес классическому SEO. Если нейросети формируют источники независимо от поисковой выдачи, стратегии продвижения, заточенные под Google, не переносятся на ИИ-ответы напрямую. Авторы оговариваются: выборка небольшая (4 запроса, 10 прогонов, один день замеров), доверительный интервал для каждой точки — порядка ±15–20 процентных пунктов, поэтому выводы носят качественный, а не статистически строгий характер.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Как устроено цитирование в ChatGPT, Gemini и DeepSeek: разбор сетевого трафика

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений