В LLM-инженерии постепенно меняется объект оптимизации. Сначала подбирали промпты, потом настраивали RAG, тюнили модели. Сейчас на первый план выходит harness — вся обвязка вокруг LLM: тулы, MCP, память, агентные workflow, guard rails, record/replay-механики, механизмы компакции, маскирование, сабагенты и скиллы. В попытках систематизировать этот зоопарк технологий разработчики создали интерактивную mindmap, доступную для всех желающих.
Следующий логичный шаг — оптимизировать harness целиком: не только промпты или top-k в retriever, не только веса модели, а весь исполняемый runtime, в котором действует модель. В литературе это называют compound ИИ systems optimization или meta-harness optimization. Авторы статьи не ограничились чтением статей — они разработали небольшой бенчмарк с записью работы СУБД и MCP-тулов в реальных нагрузочных кейсах и последующим ускоренным Replay на диагностическом агенте. Саму оптимизацию проводили через циклическое генетическое сэмплирование и выбор наилучшего варианта harness посредством парето-оптимизации.
| Запуск | Baseline | Результат | Прирост |
|---|---|---|---|
| Первый | 0.478 | 0.597 | +24.9% |
| Второй | 0.591 | 0.695 | +17.6% |
Результаты: в первом запуске метрика выросла с 0.478 до 0.597 (+24.9%), во втором — с 0.591 до 0.695 (+17.6%). Но интерес не столько в самой метрике, сколько в том, какие изменения нашёл оптимизатор. Он не просто переписывал промпты. В удачных кандидатах он начал менять этапность workflow, доступные MCP-профили и процесс сбора доказательств как отдельный этап формирования ИИ-вердикта. Это уже похоже не на prompt-engineering, а на маленький AutoML для agent harness.
Разработчики отмечают, что задача оптимизации harness сложнее, чем single-turn LLM-приложений: здесь важна вся траектория — вызвал ли агент нужные тулы, не пропустил ли отрицательные свидетельства, не сделал ли неподтверждённых выводов. Поэтому objective функция строится от всей траектории, а не от финального ответа. Такой подход открывает путь к автоматическому подбору конфигураций для сложных мультиагентных систем без ручного тюнинга каждого компонента.

