Мультиагентные паттерны

Подготовлено редакцией Malakhov AI

Habr AI·14 июн.·2 минРоссияКод

Эксперименты на фреймворке FEDOT.MAS с тремя бенчмарками и тремя моделями показали, что мультиагентные системы на простых задачах уступают одиночному агенту по точности и стоимости в 2–4 раза. Исключение — сложные логические задачи LogiQA, где команда агентов может дать прирост до 9 процентных пунктов.

Кратко

—На бенчмарках GSM8K и MMLU мультиагентные паттерны не превзошли одиночного агента по точности, но потребовали в 2–4 раза больше токенов.
—На сложном бенчмарке LogiQA некоторые паттерны (chain, blackboard) показали прирост точности на 3–9 п.п. относительно single.
—Автоматический выбор подходящего паттерна под задачу пока невозможен: разброс результатов внутри паттерна сравним с различиями между паттернами.
—Оркестратор на слабой модели может привести к расходу до 277 тысяч токенов на одну задачу из-за бесконечного цикла.

Глоссарий · 5 терминов▾

мультиагентная система: Система, состоящая из нескольких взаимодействующих агентов (вызовов LLM), которые совместно решают задачу.
бенчмарк: Стандартизированный набор тестов для оценки качества работы модели ИИ на задачах определённого типа.
паттерн: Заданная архитектура взаимодействия агентов, например цепочка, голосование или оркестратор.
оркестратор: Паттерн, в котором центральный агент-координатор решает, какие подчинённые агенты запускать и когда остановиться.
токен: Единица текста (слово или его часть), которую обрабатывает модель; стоимость использования обычно измеряется в токенах.

Разработчик фреймворка FEDOT.MAS провёл серию экспериментов, сравнив шесть мультиагентных паттернов на трёх бенчмарках (GSM8K, MMLU, LogiQA) и трёх моделях (gpt-oss-20b, ministral-8b, llama-3.1-8b). Цель — понять, окупается ли усложнение архитектуры системы дополнительными вызовами модели.

В эксперименте использовались паттерны: single (один проход), chain (цепочка «разложение → решение»), voting (два независимых решения и судья), eval_optimizer (генератор и критик), orchestrator (координатор, решающий, кто работает дальше) и blackboard (доска с исследователем, скептиком и компоновщиком). Для чистоты эксперимента промпты для каждой роли были стандартизированы по всем бенчмаркам, чтобы измерять именно архитектурные эффекты, а не качество промпт-инжиниринга. Из каждого бенчмарка бралась подвыборка из 100 вопросов.

На лёгких задачах (GSM8K и MMLU) одиночный агент оказался оптимальным. Например, на GSM8K single достиг точности 0.94 при 398 токенах на задачу, тогда как лучший мультиагентный паттерн дал 0.95, но за 1692 токена — разница в один пункт лежит в пределах шума, а стоимость выросла вчетверо. Аналогичная картина на MMLU: любые надстройки либо не улучшают результат, либо незначительно ухудшают, при этом расход токенов увеличивается в 2–4 раза. Особенно поучителен случай оркестратора на слабой модели ministral-8b: координатор не мог вовремя остановиться, сжигая до 277 тысяч токенов на одну задачу.

На сложном бенчмарке LogiQA некоторые паттерны (chain, blackboard) показали прирост точности на 3–9 п.п. относительно single.

На сложном бенчмарке LogiQA картина иная. Некоторые мультиагентные паттерны, в частности chain и blackboard, показали прирост точности на 3-9 процентных пунктов по сравнению с одиночным агентом. Это подтверждает гипотезу автора: чем труднее задача для модели, тем больше команда агентов может проявить себя. Однако попытка автоматически выбрать паттерн под конкретную задачу — с помощью «оракула», который задним числом выбирает лучший паттерн для каждого вопроса, — не удалась. Разброс результатов внутри одного паттерна оказался сравним с различиями между паттернами, что делает предсказание выбора статистически ненадёжным.

Автор отмечает, что инструмент, на котором проводятся эксперименты, — его собственная разработка, но выводы в основном не в пользу мультиагентности, что скорее самокритика, чем реклама. Код экспериментов с паттернами, прогонами и графиками опубликован в репозитории. Практическое следствие: на лёгких и средних задачах одиночный агент остаётся оптимальным по соотношению цена/качество, а мультиагентные системы стоит применять только для сложных задач, причём с осторожностью — без гарантии, что выигрыш в точности окупит рост затрат.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Мультиагентные паттерны

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений