Токийский стартап Sakana ИИ выпустил систему Fugu, которая координирует работу нескольких языковых моделей. С точки зрения пользователя она выглядит как одна модель с единым API. Fugu сам является языковой моделью: он обучен вызывать другие LLM из пула агентов, включая собственные копии. Запросы могут обрабатываться самостоятельно либо передаваться команде специализированных моделей — выбор, делегирование, проверка и синтез происходят внутри системы.

Sakana предлагает две версии. Базовая Fugu нацелена на низкую задержку и повседневные задачи вроде написания кода, code review и чат-ботов. Fugu Ultra рассчитана на максимальное качество ответов для сложных многошаговых задач. По бенчмаркам, опубликованным компанией, Fugu Ultra сопоставима с Anthropic Fable 5 и Mythos Preview по целому ряду тестов: кодинг, рассуждение, наука и агентные сценарии. Примечательно, что модели Anthropic не включены в пул Fugu, так как они недоступны публично. С их включением результаты могли бы быть выше.

БенчмаркFuguFugu UltraOpus 4.8Gemini 3.1 ProGPT 5.5
SWE Bench Pro59.073.769.254.258.6
TerminalBench 2.180.282.174.670.378.2
LiveCodeBench92.993.287.888.585.3
LiveCodeBench Pro87.890.884.882.988.4
Humanity's Last Exam47.250.049.844.441.4
CharXiv Reasoning85.186.684.283.384.1
GPQA-D95.595.592.094.393.6
SciCode60.158.753.558.956.1
τ³ Banking21.720.620.68.420.6
Long-Context Reasoning74.773.367.772.774.3
MRCRv286.693.687.984.994.8

Помимо производительности, Sakana ИИ позиционирует Fugu как способ снизить зависимость от одного провайдера. Компания ссылается на недавние экспортные ограничения на модели Fable и Mythos: доступ к передовым ИИ-системам может исчезнуть из-за регуляторных или политических решений. Пул моделей Fugu заменяемый, поэтому при блокировке одного провайдера система может перенаправить запросы к другим. Впрочем, реальная производительность Fugu по-прежнему зависит от доступных моделей. Если несколько поставщиков одновременно ограничат доступ, возможности системы сузятся. Кроме того, в анонсе не раскрыто, насколько оркестрация увеличивает потребление токенов и стоимость.

Fugu Ultra по бенчмаркам не уступает Anthropic Fable 5 и Mythos Preview.

Image description
Image description · Источник: The Decoder

Около 500 бета-тестеров уже опробовали систему. По их отзывам, Fugu показал наибольшую эффективность на длинных многошаговых рабочих процессах: автоматизированном анализе данных, проверке безопасности и code review. Один разработчик отметил, что Fugu Ultra в ходе code review находит более 20 проблем, тогда как GPT-5.5 обнаруживает лишь три. Sakana ИИ также заявляет, что Fugu превзошла Gemini 3.1 Pro, Opus 4.8 и GPT 5.5 в собственных тестах на автоматизированные исследования, механическое проектирование и финансовое прогнозирование.

Обе версии Fugu доступны через единый API на сайте продукта. Sakana предлагает подписку для ежедневного использования и биллинг по объёму для больших нагрузок. Стартап делает ставку на экосистему моделей, а не на одну модель — подобно тому, как ALE-Agent для кодирования занял 21-е место среди тысячи человек на соревновании по программированию.