Разработчик фреймворка FEDOT.MAS провёл серию экспериментов, сравнив шесть мультиагентных паттернов на трёх бенчмарках (GSM8K, MMLU, LogiQA) и трёх моделях (gpt-oss-20b, ministral-8b, llama-3.1-8b). Цель — понять, окупается ли усложнение архитектуры системы дополнительными вызовами модели.

В эксперименте использовались паттерны: single (один проход), chain (цепочка «разложение → решение»), voting (два независимых решения и судья), eval_optimizer (генератор и критик), orchestrator (координатор, решающий, кто работает дальше) и blackboard (доска с исследователем, скептиком и компоновщиком). Для чистоты эксперимента промпты для каждой роли были стандартизированы по всем бенчмаркам, чтобы измерять именно архитектурные эффекты, а не качество промпт-инжиниринга. Из каждого бенчмарка бралась подвыборка из 100 вопросов.

На лёгких задачах (GSM8K и MMLU) одиночный агент оказался оптимальным. Например, на GSM8K single достиг точности 0.94 при 398 токенах на задачу, тогда как лучший мультиагентный паттерн дал 0.95, но за 1692 токена — разница в один пункт лежит в пределах шума, а стоимость выросла вчетверо. Аналогичная картина на MMLU: любые надстройки либо не улучшают результат, либо незначительно ухудшают, при этом расход токенов увеличивается в 2–4 раза. Особенно поучителен случай оркестратора на слабой модели ministral-8b: координатор не мог вовремя остановиться, сжигая до 277 тысяч токенов на одну задачу.

На сложном бенчмарке LogiQA некоторые паттерны (chain, blackboard) показали прирост точности на 3–9 п.п. относительно single.

На сложном бенчмарке LogiQA картина иная. Некоторые мультиагентные паттерны, в частности chain и blackboard, показали прирост точности на 3-9 процентных пунктов по сравнению с одиночным агентом. Это подтверждает гипотезу автора: чем труднее задача для модели, тем больше команда агентов может проявить себя. Однако попытка автоматически выбрать паттерн под конкретную задачу — с помощью «оракула», который задним числом выбирает лучший паттерн для каждого вопроса, — не удалась. Разброс результатов внутри одного паттерна оказался сравним с различиями между паттернами, что делает предсказание выбора статистически ненадёжным.

Автор отмечает, что инструмент, на котором проводятся эксперименты, — его собственная разработка, но выводы в основном не в пользу мультиагентности, что скорее самокритика, чем реклама. Код экспериментов с паттернами, прогонами и графиками опубликован в репозитории. Практическое следствие: на лёгких и средних задачах одиночный агент остаётся оптимальным по соотношению цена/качество, а мультиагентные системы стоит применять только для сложных задач, причём с осторожностью — без гарантии, что выигрыш в точности окупит рост затрат.