Генетическая оптимизация агентного harness: эксперимент с meta-harness оптимизацией

Подготовлено редакцией Malakhov AI

Habr AI·11 июн.·2 минРоссияКод

Разработчики из русскоязычного сообщества предложили метод meta-harness оптимизации для LLM-агентов, показавший прирост целевой метрики на 17–25% в экспериментах с диагностическим агентом, записанным на реальных нагрузках СУБД и MCP-тулов.

Кратко

—Harness — сборная обвязка LLM-агента: промпты, RAG, тулы, MCP, память, guard rails, агентные workflow
—Авторы разработали бенчмарк с записью работы СУБД и MCP-тулов, повторяемой через Replay на диагностическом агенте
—Циклическое генетическое сэмплирование и парето-оптимизация позволили подобрать конфигурацию harness без дообучения модели
—В двух независимых запусках метрика выросла на 24.9% и 17.6% по сравнению с baseline
—Оптимизатор изменял этапность workflow, доступные MCP-профили и процесс сбора доказательств, а не только промпты

Глоссарий · 4 термина▾

Harness: Совокупность всех компонентов, окружающих LLM: промпты, RAG, тулы, MCP, память, guard rails, агентные workflow и другие элементы, управляющие поведением модели.
MCP (Model Context Protocol): Протокол для интеграции внешних инструментов и источников данных в агентную систему, позволяющий модели вызывать тулы и получать контекст.
Compound ИИ system: Система, состоящая из нескольких взаимодействующих компонентов (LLM, тулы, базы данных, workflow), а не из одного вызова модели.
Парето-оптимизация: Метод многокритериальной оптимизации, при котором выбранные решения не уступают другим ни по одному критерию и превосходят хотя бы по одному.

В LLM-инженерии постепенно меняется объект оптимизации. Сначала подбирали промпты, потом настраивали RAG, тюнили модели. Сейчас на первый план выходит harness — вся обвязка вокруг LLM: тулы, MCP, память, агентные workflow, guard rails, record/replay-механики, механизмы компакции, маскирование, сабагенты и скиллы. В попытках систематизировать этот зоопарк технологий разработчики создали интерактивную mindmap, доступную для всех желающих.

Следующий логичный шаг — оптимизировать harness целиком: не только промпты или top-k в retriever, не только веса модели, а весь исполняемый runtime, в котором действует модель. В литературе это называют compound ИИ systems optimization или meta-harness optimization. Авторы статьи не ограничились чтением статей — они разработали небольшой бенчмарк с записью работы СУБД и MCP-тулов в реальных нагрузочных кейсах и последующим ускоренным Replay на диагностическом агенте. Саму оптимизацию проводили через циклическое генетическое сэмплирование и выбор наилучшего варианта harness посредством парето-оптимизации.

Запуск	Baseline	Результат	Прирост
Первый	0.478	0.597	+24.9%
Второй	0.591	0.695	+17.6%

Результаты: в первом запуске метрика выросла с 0.478 до 0.597 (+24.9%), во втором — с 0.591 до 0.695 (+17.6%). Но интерес не столько в самой метрике, сколько в том, какие изменения нашёл оптимизатор. Он не просто переписывал промпты. В удачных кандидатах он начал менять этапность workflow, доступные MCP-профили и процесс сбора доказательств как отдельный этап формирования ИИ-вердикта. Это уже похоже не на prompt-engineering, а на маленький AutoML для agent harness.

Разработчики отмечают, что задача оптимизации harness сложнее, чем single-turn LLM-приложений: здесь важна вся траектория — вызвал ли агент нужные тулы, не пропустил ли отрицательные свидетельства, не сделал ли неподтверждённых выводов. Поэтому objective функция строится от всей траектории, а не от финального ответа. Такой подход открывает путь к автоматическому подбору конфигураций для сложных мультиагентных систем без ручного тюнинга каждого компонента.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Генетическая оптимизация агентного harness: эксперимент с meta-harness оптимизацией

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений