llms.txt: почему спор о файле зашёл в тупик и где он реально работает

Подготовлено редакцией Malakhov AI

Habr AI·3 дня назад·3 минРоссияКод

Аудит CDN-логов на тысяче доменов показал почти нулевые обращения к llms.txt со стороны фоновых краулеров — и одновременно часть ИИ-агентов читает файл в реальном времени при выполнении задач. Обе стороны спора правы, но измеряют разные слои доступа.

Кратко

—OtterlyAI зафиксировала 84 обращения к llms.txt из 62 100 визитов ИИ-ботов за 90 дней — это 0,1% трафика.
—SE Ranking проверила 300 000 доменов: llms.txt есть у 10,13% сайтов, но связи с частотой цитирования в ИИ-ответах не обнаружено.
—Цифра «+30–60% цитируемости» взята из исследований Princeton GEO и Digital Bloom — они измеряли статистику и pull-quote'ы, а не сам файл.
—В тесте восьми систем в мае 2026 файл по прямому запросу читали только ChatGPT 5.5 и Grok 4; ни одна система не обращалась к нему самостоятельно.
—Реальная ниша llms.txt — IDE- и coding-агенты (Cursor, Claude Code, Copilot), которые используют файл как навигационную карту документации.

Глоссарий · 7 терминов▾

llms.txt: Текстовый файл в корне домена, содержащий структурированное описание сайта для ИИ-агентов — аналог sitemap.xml, но ориентированный на языковые модели, а не на поисковые краулеры.
GEO (generative engine optimization): Оптимизация контента с целью повысить вероятность его цитирования в ответах генеративных ИИ-систем — аналог SEO, но для ИИ-выдачи.
Агентный браузинг: Режим работы ИИ-системы, при котором она в реальном времени делает HTTP-запросы к сайтам для выполнения текущей задачи пользователя, а не использует заранее накопленный индекс.
Фоновый краулинг: Автоматический обход веб-страниц ботами (GPTBot, ClaudeBot и др.) для формирования индекса или обучающей выборки — происходит независимо от запросов пользователей.
Retrieval: Механизм поиска и извлечения релевантных фрагментов из внешних источников, который ИИ-система использует перед формированием ответа.
pull-quote: Выделенная цитата или ключевая фраза из текста, вынесенная отдельным блоком — в контексте GEO-исследований её добавление в материал повышает вероятность цитирования ИИ.
IDE-агент: ИИ-ассистент, встроенный в среду разработки (Cursor, Claude Code, GitHub Copilot) и способный самостоятельно читать документацию, запрашивать файлы и выполнять многошаговые задачи.

Файл llms.txt появился как попытка дать ИИ-системам структурированную точку входа на сайт — аналог sitemap.xml, но ориентированный не на поисковые краулеры, а на языковые модели. Идея простая: вместо того чтобы агент разбирал HTML-страницы вручную, он открывает один файл в корне домена и получает карту контента в читаемом для модели формате.

Вокруг файла сложились два непримиримых лагеря. Первый продаёт его как обязательный инструмент GEO (generative engine optimization) и ссылается на прирост цитируемости в 30–60%. Второй приводит логи: аудит CDN на тысяче доменов Adobe Experience Manager за месяц показал, что специализированные LLM-боты к /llms.txt практически не обращаются. OtterlyAI за 90 дней насчитала 84 обращения к файлу из 62 100 визитов ИИ-краулеров — 0,1%. Джон Мюллер из Google публично сравнил llms.txt с мета-тегом keywords, то есть с реликтом без практического эффекта. Google официально отказался поддерживать стандарт; формального статуса IETF у файла нет.

Исследование / источник	Охват	Результат
OtterlyAI, 90 дней	62 100 визитов AI-ботов	84 обращения к llms.txt (0,1%)
Аудит CDN Adobe Experience Manager	1 000 доменов, 30 дней	Почти нулевые обращения LLM-ботов к /llms.txt
SE Ranking	300 000 доменов	llms.txt у 10,13% сайтов; корреляции с цитируемостью не найдено
Princeton GEO	не указан	+30–40% цитируемости от добавления статистики и прямых цитат в текст
Digital Bloom	не указан	+37% цитируемости от использования pull-quote'ов

Проблема спора в том, что обе стороны измеряют один и тот же механизм — фоновый краулинг — и делают из него универсальный вывод. Между тем доступ ИИ к сайту устроен принципиально по-разному в зависимости от контекста. Фоновые краулеры (GPTBot, ClaudeBot, PerplexityBot) обходят HTML напрямую и строят индекс впрок: им навигационная подсказка не нужна, они и так идут по ссылкам. Обучающие данные — отдельный слой: модель отвечает из того, что выучила до даты среза, никакого чтения в реальном времени там нет. Третий слой — агентный браузинг: пользователь ставит задачу, и система прямо сейчас делает HTTP-запросы к нужным URL. Вот здесь llms.txt имеет смысл как точка входа для агента, которому нужно быстро понять структуру незнакомого сайта.

SE Ranking проверила 300 000 доменов: llms.txt есть у 10,13% сайтов, но связи с частотой цитирования в ИИ-ответах не обнаружено.

Автор материала в мае 2026 прогнал восемь ИИ-систем с веб-доступом через пять сценариев, чтобы проверить агентный слой напрямую. Тест не претендует на статистическую репрезентативность — это воспроизводимый срез поведения на конкретную дату. Результат: по прямому запросу «прочитай /llms.txt» файл открыли только ChatGPT 5.5 и Grok 4. Ни одна из восьми систем не обратилась к файлу самостоятельно, без явного указания. Anthropic, по стороннему отчёту Presenc ИИ, учитывает файл в retrieval-процессе; OpenAI официальной позиции не озвучивал.

Цифра «+30–60% цитируемости», которую активно тиражирует хайп-лагерь, не имеет отношения к llms.txt. Первоисточники — исследование Princeton GEO, намерившее +30–40% от добавления статистики и прямых цитат в текст, отчёт Digital Bloom с +37% от pull-quote'ов и данные по адверториалам на авторитетных площадках (+35–60%). Все эти тактики касаются содержания страниц, а не файла в корне домена. SE Ranking, проверив 300 000 доменов, не нашла корреляции между наличием llms.txt и частотой попадания в ИИ-ответы.

Практический вывод из всего массива данных выглядит так: для маркетингового лендинга файл почти не даёт эффекта — фоновые краулеры его игнорируют, а прямой связи с цитируемостью нет. Для SaaS-продуктов, документационных сайтов и API-сервисов картина другая. Coding-агенты — Cursor, Claude Code, GitHub Copilot — уже сейчас используют /llms.txt и /llms-full.txt как навигационный слой вместо разбора HTML. Это узкая, но реальная ниша: разработчик, работающий с незнакомой библиотекой через IDE-агент, получает структурированный контекст быстрее, чем если бы агент парсил документацию постранично. Сделать файл можно за 30 минут; ждать от него магии в поисковой выдаче не стоит.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам