Habr опубликовал перевод практического руководства по инжинирингу контекста — методологии, которая фокусируется не на тексте промпта, а на том, какую информацию модель получает в целом: через системное сообщение, историю диалога, RAG-извлечение и инструментальные вызовы.

Авторы разграничивают промпт-инжиниринг и context engineering: первый — это формулировка инструкции, второй — архитектурное решение о том, какой информационный поток обеспечивает модели наилучшую работу. Для приложений с долгой историей диалога или большим числом документов это различие принципиально.

Основные рекомендации руководства: ранние части контекста имеют больший вес, чем поздние (у большинства моделей), поэтому критические инструкции должны идти в начале системного сообщения, а не в конце. Противоречивые инструкции в разных частях контекста приводят к непредсказуемому поведению. Перегрузка контекста нерелевантной информацией снижает качество не меньше, чем её нехватка.

Ключевые принципы: релевантность, порядок, плотность и баланс системных и пользовательских сообщений

Раздел о RAG-оптимизации описывает распространённую ошибку: разработчики подают модели все найденные фрагменты документов, хотя нужно отбирать только действительно релевантные. Модель не умеет «игнорировать» лишнее — она обрабатывает весь контекст и вынуждена самостоятельно взвешивать противоречивые сигналы.

Руководство написано для практиков, строящих продакшен-приложения на базе LLM. Принципы применимы независимо от модели — GPT-5.5, Claude 3.5 Sonnet, Gemini 2.5 или локальных вариантов. Это делает материал долгосрочно актуальным в отличие от советов под конкретные версии API.