日本AI实验室发布多AI协调大模型Sakana Fugu
我完全没想到这成果会来自日本。日本 AI 实验室刚刚发布了一个 Mythos/Fable 级别的模型。
就在美国所有实验室都竞相打造更大模型的时候,东京一支低调的团队造出了更特别、甚至可能更智能的东西。一个能指挥所有其他 AI 的单一 AI。
Sakana 宣称它达到了 Mythos 级性能,也就是世界上大部分地区现在都没法接触到的出口管制层级。
它叫做 Sakana Fugu,于今天,2026年6月22日正式发布。它背后的理念,是当前 AI 领域最逆势的押注。下面来看看它到底是什么。
Fugu 是一个多智能体编排系统,对外呈现为单一 API。你只需要发送一次调用,它会在内部把你的任务动态自适应地分发到全球最好的前沿模型池中完成,没有硬编码规则。
由一组专家模型完成工作,你最终得到一个整合后的答案,质量比其中任何单个模型单独产出的都要好。
最巧妙的地方在这里:Fugu 不是用 if/else 逻辑搭建的路由器。Fugu 本身就是一个经过训练的语言模型,它被训练来理解何时该委派任务、智能体之间该如何通信,以及如何把它们的输出整合为可靠的结果。它甚至可以递归调用其他模型,包括它自身的副本。
编排能力是学习出来的,不是硬编码的。它基于 Sakana 在 ICLR 2026 发表的两篇论文:一个进化的 LLM 协调器 TRINITY,以及关于学习用自然语言编排智能体的 Conductor。这不是伪装成产品的提示词工程,是真正的架构押注。
下面来看看公开验证的基准测试实际结果:对比最好的公开可访问模型 Opus 4.8、Gemini 3.1 Pro 和 GPT-5.5,Fugu Ultra 在10项基准测试中8项领先或持平。
它在 GPQA-D 上拿到 95.5 分,LiveCodeBench 93.2 分,LiveCodeBench Pro 90.8 分,TerminalBench 2.1 82.1 分,还在 Humanity's Last Exam 上小幅领先 Opus 4.8。
诚实来说:它并非全方面取胜。GPT-5.5 在长上下文召回上依然领先,Opus 4.8 在网络安全领域领先。还有一个真的很有意思的特点:在少数任务上,更轻量、更均衡的 Fugu 模型实际上击败了 Fugu Ultra。有时候过多编排只会增加噪声。
接下来要说为什么时机比基准测试结果更重要。2026年6月12日,Anthropic 的 Fable 5 和 Mythos 一夜之间对全球大部分地区不可访问,被锁在了国家安全出口管制背后。
十天后,Sakana 发布了一套设计上来就让这种封锁失去意义的系统。因为 Fugu 的模型池是可替换的,如果未来有任何单个供应商被出口管制,Fugu 只要绕开它重新分配任务就行。不依赖任何单一实验室,没有单点故障。编排层就是对冲。
这才是这件事真正的看点。其他所有人都在拼命抢着造出那个能赢的单一模型。而一家东京实验室押注,赢家根本不会是某个单一模型——赢家会是那个懂得怎么用好所有模型的东西。而他们可能是对的。
本文由 AI 翻译自英文原帖,技术名词保留英文。
查看 X 原帖