Токийский стартап Sakana ИИ выпустил систему Fugu, которая координирует работу нескольких языковых моделей. С точки зрения пользователя она выглядит как одна модель с единым API. Fugu сам является языковой моделью: он обучен вызывать другие LLM из пула агентов, включая собственные копии. Запросы могут обрабатываться самостоятельно либо передаваться команде специализированных моделей — выбор, делегирование, проверка и синтез происходят внутри системы.
Sakana предлагает две версии. Базовая Fugu нацелена на низкую задержку и повседневные задачи вроде написания кода, code review и чат-ботов. Fugu Ultra рассчитана на максимальное качество ответов для сложных многошаговых задач. По бенчмаркам, опубликованным компанией, Fugu Ultra сопоставима с Anthropic Fable 5 и Mythos Preview по целому ряду тестов: кодинг, рассуждение, наука и агентные сценарии. Примечательно, что модели Anthropic не включены в пул Fugu, так как они недоступны публично. С их включением результаты могли бы быть выше.
| Бенчмарк | Fugu | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT 5.5 |
|---|---|---|---|---|---|
| SWE Bench Pro | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity's Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long-Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
Помимо производительности, Sakana ИИ позиционирует Fugu как способ снизить зависимость от одного провайдера. Компания ссылается на недавние экспортные ограничения на модели Fable и Mythos: доступ к передовым ИИ-системам может исчезнуть из-за регуляторных или политических решений. Пул моделей Fugu заменяемый, поэтому при блокировке одного провайдера система может перенаправить запросы к другим. Впрочем, реальная производительность Fugu по-прежнему зависит от доступных моделей. Если несколько поставщиков одновременно ограничат доступ, возможности системы сузятся. Кроме того, в анонсе не раскрыто, насколько оркестрация увеличивает потребление токенов и стоимость.
Fugu Ultra по бенчмаркам не уступает Anthropic Fable 5 и Mythos Preview.

Около 500 бета-тестеров уже опробовали систему. По их отзывам, Fugu показал наибольшую эффективность на длинных многошаговых рабочих процессах: автоматизированном анализе данных, проверке безопасности и code review. Один разработчик отметил, что Fugu Ultra в ходе code review находит более 20 проблем, тогда как GPT-5.5 обнаруживает лишь три. Sakana ИИ также заявляет, что Fugu превзошла Gemini 3.1 Pro, Opus 4.8 и GPT 5.5 в собственных тестах на автоматизированные исследования, механическое проектирование и финансовое прогнозирование.
Обе версии Fugu доступны через единый API на сайте продукта. Sakana предлагает подписку для ежедневного использования и биллинг по объёму для больших нагрузок. Стартап делает ставку на экосистему моделей, а не на одну модель — подобно тому, как ALE-Agent для кодирования занял 21-е место среди тысячи человек на соревновании по программированию.



