Sakana ИИ представила Fugu — систему оркестрации LLM, сопоставимую с Anthropic

В бенчмарках Fugu Ultra сопоставима с моделями Anthropic Fable 5 и Mythos Preview. Разработчик, японский стартап Sakana ИИ, представил систему оркестрации нескольких LLM под названием Fugu.

Токийский стартап Sakana ИИ выпустил систему Fugu, которая координирует работу нескольких языковых моделей. С точки зрения пользователя она выглядит как одна модель с единым API. Fugu сам является языковой моделью: он обучен вызывать другие LLM из пула агентов, включая собственные копии. Запросы могут обрабатываться самостоятельно либо передаваться команде специализированных моделей — выбор, делегирование, проверка и синтез происходят внутри системы.

Sakana предлагает две версии. Базовая Fugu нацелена на низкую задержку и повседневные задачи вроде написания кода, code review и чат-ботов. Fugu Ultra рассчитана на максимальное качество ответов для сложных многошаговых задач. По бенчмаркам, опубликованным компанией, Fugu Ultra сопоставима с Anthropic Fable 5 и Mythos Preview по целому ряду тестов: кодинг, рассуждение, наука и агентные сценарии. Примечательно, что модели Anthropic не включены в пул Fugu, так как они недоступны публично. С их включением результаты могли бы быть выше.

Бенчмарк	Fugu	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT 5.5
SWE Bench Pro	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long-Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

Помимо производительности, Sakana ИИ позиционирует Fugu как способ снизить зависимость от одного провайдера. Компания ссылается на недавние экспортные ограничения на модели Fable и Mythos: доступ к передовым ИИ-системам может исчезнуть из-за регуляторных или политических решений. Пул моделей Fugu заменяемый, поэтому при блокировке одного провайдера система может перенаправить запросы к другим. Впрочем, реальная производительность Fugu по-прежнему зависит от доступных моделей. Если несколько поставщиков одновременно ограничат доступ, возможности системы сузятся. Кроме того, в анонсе не раскрыто, насколько оркестрация увеличивает потребление токенов и стоимость.

Fugu Ultra по бенчмаркам не уступает Anthropic Fable 5 и Mythos Preview.

Image description · Источник: The Decoder

Около 500 бета-тестеров уже опробовали систему. По их отзывам, Fugu показал наибольшую эффективность на длинных многошаговых рабочих процессах: автоматизированном анализе данных, проверке безопасности и code review. Один разработчик отметил, что Fugu Ultra в ходе code review находит более 20 проблем, тогда как GPT-5.5 обнаруживает лишь три. Sakana ИИ также заявляет, что Fugu превзошла Gemini 3.1 Pro, Opus 4.8 и GPT 5.5 в собственных тестах на автоматизированные исследования, механическое проектирование и финансовое прогнозирование.

Обе версии Fugu доступны через единый API на сайте продукта. Sakana предлагает подписку для ежедневного использования и биллинг по объёму для больших нагрузок. Стартап делает ставку на экосистему моделей, а не на одну модель — подобно тому, как ALE-Agent для кодирования занял 21-е место среди тысячи человек на соревновании по программированию.

Sakana ИИ представила Fugu — систему оркестрации LLM, сопоставимую с Anthropic

Кратко

Читать дальше

Google DeepMind и A24 заключили партнёрство для исследований ИИ в кино

Sitronics Group: 52% сотрудников готовы передать ИИ-ботам конфиденциальные данные

Vibe-кодинг: как любительские приложения на ИИ становятся брешью в безопасности