Контекстная гигиена в работе с ИИ-агентами: как экономить токены и получать точные ответы

Подготовлено редакцией Malakhov AI

Habr AI·6 дней назад·3 минРоссияКод

iOS-разработчик Андрей Жаров из Doubletapp описал систему управления контекстным окном при работе с локальными ИИ-агентами — от структуры команд до разделения данных на три слоя. Подход позволяет сократить расход токенов и снизить число итераций при отладке кода.

Кратко

—Контекст делится на три слоя: постоянные правила, рабочий набор задачи и шумные эпизодические данные — смешивать их вредно.
—Команды агенту эффективнее писать телеграфным стилем: без артиклей, вежливостей и развёрнутых оборотов.
—Каждая задача должна содержать один конкретный done-критерий — объективную проверку, когда агенту остановиться.
—Исследование Lost in the Middle показывает: нейросети хуже используют информацию из середины длинного контекста, поэтому важное лучше класть в начало.
—Стартовые координаты (конкретные файлы, последний коммит) сокращают хаотичный обход репозитория и ускоряют первый полезный шаг агента.

Глоссарий · 7 терминов▾

Контекстное окно: Максимальный объём текста (в токенах), который языковая модель может обработать за один запрос — всё, что выходит за его пределы, модель не видит.
Токен: Минимальная единица текста, которую обрабатывает языковая модель; примерно соответствует слогу или короткому слову, от числа токенов зависит стоимость и скорость запроса.
Tool output: Результат выполнения внешнего инструмента (поиска, запуска кода, чтения файла), который агент получает и добавляет в контекст.
Done-критерий: Явно сформулированное условие завершения задачи, по которому агент определяет, что работа выполнена и можно остановиться.
Lost in the Middle: Академическая работа, зафиксировавшая эффект снижения качества ответов языковых моделей, когда нужная информация находится в середине длинного контекста, а не в начале или конце.
Prompt engineering: Практика составления запросов к языковым моделям таким образом, чтобы получить точный и полезный результат.
LLM: Large Language Model — большая языковая модель, тип нейросети, обученной на текстах и способной генерировать связный текст, код и ответы на вопросы.

Андрей Жаров, iOS-разработчик компании Doubletapp, опубликовал на Habr подробный разбор того, как управлять контекстным окном при ежедневной работе с локальными ИИ-агентами. Материал вырос из практики: автор заметил, что вежливые развёрнутые инструкции в духе «Please carefully analyze the project» работают хуже коротких телеграфных команд — и объяснил, почему это так устроено.

В основе подхода лежит разделение контекста на три слоя. Первый — постоянные правила: архитектурные решения, границы безопасности, предпочтительные инструменты. Второй — рабочий набор конкретной задачи: несколько файлов, дифф, фрагмент лога, скриншот, ссылка на документацию. Третий — шумные эпизодические данные: длинные логи, промежуточные tool outputs, большие таблицы, поисковая выдача. Проблема возникает, когда все три слоя сваливаются в один промпт: агент тратит токены на разбор мусора вместо решения задачи.

Тип done-критерия	Пример	Оценка
Хороший	test passes	Объективен, проверяем автоматически
Хороший	no errors	Объективен, однозначен
Хороший	ui matches design	Проверяем визуально
Плохой	сделай хорошо	Субъективен, агент угадывает
Плохой	чтобы не сломалось	Размыт, нет критерия проверки
Плохой	сам поймёшь	Перекладывает понимание на агента

Почему краткость работает технически. Нейросеть читает токены последовательно, слева направо. Академическая работа Lost in the Middle зафиксировала эффект: модели хуже используют информацию, спрятанную в середине длинного контекста. Из этого следует практическое правило — важные данные кладут в начало, вопрос или задачу — в конец. Кроме того, развёрнутые вежливые конструкции («Please, say to me, is our code okay?») требуют дополнительного парсинга: модель должна отбросить воду и добраться до смысла. Короткий вариант («code is okay?») передаёт тот же смысл за меньшее число токенов.

Для структурирования команд Жаров предлагает минималистичный шаблон с полями Task, Done, Context, Rules и If stuck. Пример из статьи:

Task: fix empty password validation in AuthScreen Done: AuthViewModelTests pass + new empty password test Context: AuthScreen.swift, AuthViewModel.swift, AuthViewModelTests.swift Rules: don't change backend API, don't touch registration, minimal patch If stuck: ask with exact blocker

Формат не обязателен дословно — автор подчёркивает, что важна сама идея: команда пишется для машины, а не для коллеги. Русскоязычные инструкции работают по тем же правилам: «почини валидацию пустого пароля / готово = тест проходит / API не менять / если непонятно → спроси».

Отдельный блок посвящён done-критериям. Без чёткой проверки завершения агент сам решает, когда остановиться, — и нередко продолжает «улучшать» соседние части кода, которых никто не трогал. Хорошие критерии объективны и проверяемы: «test passes», «no errors», «ui matches design». Плохие — субъективны: «сделай хорошо», «чтобы не сломалось». Жаров формулирует это жёстко: не учите агента понимать задачу за вас, поймите её сами и опишите ему.

Тот же принцип применяется к стартовым координатам. Вместо «где-то в auth сломалась кнопка, посмотри проект» — конкретные файлы и гипотеза: «Bug: login button stays disabled / Start here: AuthScreen.swift, AuthViewModel.swift». Агент всё равно может расширить поиск, если стартовая гипотеза не подтвердилась, но не начинает с хаотичного обхода всего репозитория. Это сокращает объём чтения и уменьшает шум в контексте.

Подход Жарова вписывается в более широкую дискуссию об эффективности prompt engineering при работе с кодовыми агентами — такими как Cursor, Aider или локальные решения на базе open-source LLM. Разница между «умным промптом» и «инфраструктурой контекста» становится заметной именно в длинных сессиях: когда задача занимает не один запрос, а десятки итераций, накопленный шум в окне начинает деградировать качество ответов. Контекстная гигиена — это не разовый приём, а постоянная практика управления тем, что агент видит в каждый момент времени.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам