LLM 编排 vs 多 Agent 编排:拆解 Sakana Fugu

6 月 22 日,东京的 Sakana AI 发布了 Fugu。它没有训练任何一个前沿大模型,而是把一池现成的模型编排起来,对外表现得像单个模型,并且自报在一些硬基准上能和 Fable 5 比肩。这件事值得拆一拆,因为它顺手把「多模型编排」和「多 agent 编排」这两件常被混为一谈的事,照得很清楚。

一、背景:Sakana AI 是谁

Sakana AI 是东京的一家前沿 AI 公司,2023 年成立,联合创始人里有 Transformer 论文《Attention Is All You Need》的共同作者之一 Llion Jones。它的路线和「堆更大的模型」不太一样,信的是自然启发、进化式那一套,一句常被引用的话是「智能源于资源的匮乏,而非充裕」,所以更愿意让一堆小而专的模型协作,而不是训一个无所不能的巨型模型。

这条路线下,它做过几样有代表性的工作:用进化算法自动合并开源模型的「进化式模型合并」、尝试把科研流程自动化的 The AI Scientist、以及让多个前沿模型在推理时协作的 AB-MCTS。资本上,2025 年 11 月它完成了估值约 26.5 亿美元的 B 轮,投资方包括 Google、MUFG 等,业务方向放在金融、国防与制造。

二、Fugu 的原理(以官方与论文为准)

先用 Sakana 自己的话定位:Fugu 是「一个行为像单个模型的多 agent 系统」。你把请求发给一个 endpoint,Fugu 自己判断是直接回答,还是召集多个专家模型来啃一个复杂任务。

关键在于,Fugu 本身就是一个被训练过的语言模型,它学的是「什么时候该委派、参与的模型之间该怎么沟通」。官方把它内部干的事拆成四件:模型选择、任务委派、验证、合成。

这套「学出来的编排」建立在两篇 ICLR 2026 的论文上:

  • Trinity(《An Evolved LLM Coordinator》, Xu et al., arXiv:2512.04695):一个用进化方法得到的轻量协调器,给多模型池里的参与者分 Thinker、Worker、Verifier 三种角色,按 coding、数学、推理等任务类型,自适应地把活派下去。
  • Conductor(《Learning to Orchestrate Agents in Natural Language》, Nielsen et al., arXiv:2512.04388):用强化学习训练,自己摸索出「用自然语言怎么协调」的策略,也就是学会让一池风格各异的模型互相沟通,使整体表现超过其中任何一个单独的模型。

两篇合起来看,Fugu 的决策链是:读懂任务,决定直接回答还是拆成子任务;如果复杂,就给每个子任务挑最合适的专家模型,再做验证与合成。

这个「组合多个模型、超过任何单个」的核心思路,在 Sakana 更早的 AB-MCTS 里已经有过实证。AB-MCTS 在推理时用 Thompson 采样,在「生成新解(往宽里搜)」和「精修已有解(往深里搜)」之间动态选择,并把「这一步调用哪个模型」当成一个多臂老虎机问题来学。在 ARC-AGI-2 的公开任务上,单模型重复采样约 23% 的通过率,换成多模型组合后到了 30% 以上,并且出现了「任何单个模型都解不出、组合却解出」的题。

产品分两档:

  • Fugu:偏性能与低延迟,面向交互式服务和日常使用。
  • Fugu Ultra:偏最高答案质量,面向难的多步任务,比如研究、安全分析、代码审查。

基准数字要如实标清楚。Sakana 称 Fugu Ultra 在工程、科学、推理类基准上「与 Fable 5、Mythos Preview 等领先模型比肩」,对照的是 Gemini 3.1 Pro、Opus 4.8、GPT 5.5。但有两点必须说明:这些是厂商自报的数字;而 Fable 5 和 Mythos Preview 的分数来自各家自己公布,它们也并不在 Fugu 的模型池里。更细的口径在 Fugu 技术报告(arXiv:2606.21228)。

工程上还有一个直接的好处:模型池是可热插拔的,某一家不可用就换一家,不必把自己绑死在单一供应商上。社区也已经有人做了开源复刻 OpenFugu。

三、多 LLM 编排和多 Agent 编排,不是一回事

这里得插一个容易被混淆的区别,否则下一节会问错问题。

Fugu 内部分角色、走多步、还带 verifier,看着很像一个「多 agent 系统」,官方也这么叫它。但它和我们平时说的「多 agent 编排」(比如 Claude Code 的 Agent Teams、各种 agent 框架)其实是两层东西。

区别的根子在于:被编排的「单元」不同。多 LLM 编排,编排的是一次次模型推理调用;多 agent 编排,编排的是一个个 agent,而 agent = 模型 + 工具 + 记忆 + 一个角色 + 一个自己的循环。

把这两层并排看:

多 LLM 编排 多 Agent 编排
编排单元 一次模型推理 一个带工具和记忆的 agent
时间跨度 单次请求、短程 多步、长程
状态 基本无状态 有状态(记忆、工作区)
核心动作 路由、集成、合成 分解、派单、调工具、聚合、纠错
对外副作用 无,只产出文本 有,会写文件、跑代码、发请求
优化目标 这一题答得更好、更便宜 把一个多步任务真正干完

一句更直白的分法:多 LLM 编排在编排「思考」,多 Agent 编排在编排「行动」。前者像一个关在房间里的专家委员会,吵出一个更好的答案再交出来;后者像一个会走出房间、真去做一件事、然后带着结果回来的人。Fugu 内部那套 Thinker / Worker / Verifier,是在房间里合议,它们不碰你的文件、不跑你的代码、不发你的请求。

而且这两者不是二选一,是一条光谱:从单模型,到模型路由,到多模型集成合成(Fugu 标准档就在这一段),到推理时的跨模型搜索(AB-MCTS),再到带工具和状态的多 agent(Fugu Ultra 开始往这边滑,Agent Teams 完全在这),最后到分层的 agent 团队。越往右,单元就从「一个会说话的模型」变成「一个会做事的 worker」。

判断一个系统落在哪一头,有个简单标准:被编排的单元,有没有「工具 + 状态 + 自己的循环 + 对真实世界的副作用」。只是被 prompt 出一个回答然后合并,就是多 LLM 编排,哪怕它自称 multi-agent;能调工具、写文件、看了结果再迭代,才是多 agent 编排。顺带说一句,「multi-agent」如今被当成营销词用得很滥,不少所谓的多 agent,拆开看其实只是多模型。

所以 Fugu 的准确画像是:一个带了 agentic 协调器的多 LLM 编排系统。它借用了 agent 的词汇,但被编排的 worker 本质上是从一池里选出来、无状态的模型调用。想清楚这一点,下一节才好谈它到底能替我简化什么。

四、放到一套真实系统里:Fugu 能简化什么

我自己跑着一套多 agent 的自动化系统,这里只讲框架。顶上一个总指挥,往下协调两条线:一条开发线,把任务派给各个项目里的编码 agent;一条运营线,做内容生产和社区互动。这些 agent 都会真的动手:写代码、跑命令、产出内容、对外发布,各自有不同的权限边界。总指挥负责拆需求、按路由派单、排优先级。

把 Fugu 接进来,第一件要想清楚的事是边界:Fugu 换的是每个成员的「脑」,不是「指挥」。 上一节说过,Fugu 内部虽然也分角色、也走多步,但那是一场封闭的合议,最后交回一段文本。真正动手、持有状态、对结果负责的,是上层那套编排。所以接 Fugu,编排层基本不动。

那它能简化什么?集中在「脑」这一层:

第一,把按角色配模型的策略下沉。以前要手工琢磨「这个轻量高频的 agent 用小模型、主力开发用中模型、最烧脑的分析用大模型」。这套按角色分档的活,大半可以交给 Fugu 动态路由,不必再逐个 agent 钉死模型。

第二,纯粹为了换模型而拆开的 agent 会被收编。如果某些 agent 当初分家,唯一的理由就是想用不同模型的强项,那么一个 Fugu 脑的 agent 每次调用都能动态拿到最合适的模型,这几个就能塌缩成一个,系统更简单。

第三,每个成员的单次脑力被抬高。一次思考从「问一个模型」变成「一个会路由、会合议的专家组在答」,地板高了一截。

但有同样多的东西,Fugu 收编不了,得老实保留。

我这套系统里的 agent 之所以分开,大多不是为了换模型,而是为了切活:不同项目、不同权限域、要并行、要上下文互不污染。这些跟「哪个模型更聪明」无关,Fugu 一个都收不走,团队结构原样保留。

还有两条使用纪律:

  • 思考重、没有副作用的步骤,比如选题调研、内容起草、代码推理、数据分析,放心交给 Fugu。
  • 动真格、不可逆、需要留痕的步骤,比如对外发布、改动线上,钉一个固定的已知模型,别让动态路由插手。这和 Fugu 自己主打金融、国防这类场景其实是同一个道理:这些地方要的是有界、可审计,而不是每次都换一个脑。

落地还有几处摩擦,点到为止:底层一旦换模型,工具调用的格式得保持统一,否则一个调用就可能出错;黑盒合议会牺牲一点可观测性,出问题时不容易看清是谁的决定;而多个 agent、各自多步、每步内部又是多模型合议,成本会叠起来,所以日常走标准档、难题才上 Ultra,是必要的省钱办法。

收口一句:Fugu 收编的是「为了答得更好而拼起来的多模型」,收编不了「为了分工、为了保留分歧、或者为了锁定某个模型而存在的多模型」。对一套已经按「切活」分好的系统来说,它简化的是每个人的脑,不是整套架构。

参考

相关推荐
柒和远方1 小时前
LLM 的底层语言:从分词到向量化,搞懂 AI 是怎么"读"文字的
llm·agent
Georgewu2 小时前
当黑盒开始写黑盒:AI时代的软件、创作与人的退路
ai编程
甲维斯3 小时前
字节版“Codex”初体验,Seed 2.1pro所有人免费用!
人工智能·ai编程·豆包marscode
码哥字节5 小时前
Claude Code 准确率从 41% 升到 89%,这个 CLAUDE.md 只做了一件事
agent·ai编程·claude
沉默王二5 小时前
Agent底层原理连问8道,从ReAct到记忆压缩,PaiCLI项目实战拆解
面试·agent·ai编程
把你拉进白名单5 小时前
8.OpenClaw源码解析——三层洋葱重试
人工智能·llm·agent
乘风gg6 小时前
AI GenUI 真正落地时,前端到底要做什么?
前端·ai编程·cursor
怕浪猫6 小时前
第4章 规划与推理:赋予Agent思考的能力
openai·agent·ai编程
To_OC16 小时前
搞懂 Token 和 Embedding 后,我终于明白大模型是怎么 "读" 文字的
人工智能·llm·agent