转载--AI Agent 架构设计：单 Agent vs 多 Agent（OpenClaw、Claude Code、Hermes Agent 对比）

原文：https://mp.weixin.qq.com/s/Gjngm7j1Uh8MfM3qjHJ8UA

一个让人不舒服的研究结论

2025 年 12 月，Google DeepMind 发布了一篇论文：《Towards a Science of Scaling Agent Systems》。

他们测试了 180 种 Agent 配置，跨越 5 种架构模式，使用 GPT、Gemini、Claude 三个模型族。结论里有一句话让很多人不舒服：

"在需要严格顺序推理的任务上（比如规划），我们测试的每一种多 Agent 变体都让性能下降了 39% 到 70%。"

不是某些配置变差了，是所有测试过的多 Agent 配置都变差了。

这不是小样本数据，是 180 种配置的系统性测试。多 Agent 在并行化任务上的收益是真实的------金融分析场景里，最优配置能带来 81% 的性能提升。但在顺序推理任务上，多 Agent 的性能退化同样是真实的，而且退化幅度更大。

更多 Agent 不等于更好的结果。 这个判断值得认真对待。

为什么多 Agent 会让顺序推理变差

理解这个问题，需要先理解多 Agent 的成本结构。

成本一：协调开销

5 个 Agent 的系统，协调延迟约 200ms；50 个 Agent，超过 2 秒。这是通信和状态同步的固定成本，和任务复杂度无关。

成本二：上下文碎片化

当推理需要跨多个步骤连贯地进行，把这个过程拆给多个 Agent，每个 Agent 只能看到自己的那一部分。协调者需要汇总所有 Agent 的输出，再做下一步判断------这个汇总过程本身就是信息的损耗。

成本三：错误放大

MAST 研究（2025 年 3 月）分析了 1,642 个执行轨迹，发现独立多 Agent 系统会将错误放大最高 17.2 倍。一个 Agent 的小错误，通过多 Agent 的传递链条，变成了大错误。

单 Agent vs 多 Agent：怎么判断

在决定用多 Agent 之前，应该先回答三个问题。

问题一：任务真的可以并行吗？

把任务列出来，问自己：这些子任务可以同时进行，还是大多数都要等前一步完成？

如果任务有强依赖关系（B 需要 A 的结果才能开始），多 Agent 的并行优势消失了，只剩下协调成本。这种情况，单 Agent 的 TodoWrite 按顺序执行往往更快、更可靠。

问题二：子任务真的需要"不同的专业"吗？

多 Agent 的价值来自专业化------不同 Agent 有不同的上下文和工具集，处理不同类型的问题。如果所有子任务都是同类型的工作，分给多个通用 Agent 处理，收益微乎其微，但协调成本是真实的。

问题三：现有的单 Agent 方案有具体的性能瓶颈吗？

Microsoft 的建议是：用单 Agent 证明价值，再投资多 Agent 协调。在没有具体数据证明单 Agent 遇到瓶颈之前，不要假设多 Agent 会更好。

三个框架各自怎么看这个问题

OpenClaw：多 Agent 是"可以做"，但不是默认的

OpenClaw 的多 Agent 支持通过 sessions_spawn 实现，主 Agent 派发子任务，子 Agent 独立执行后汇报结果。

官方文档对多 Agent 的适用场景描述比较保守：长期研究任务（需要并行探索多个方向）、内容创作（不同 Agent 分别完成研究、写作、审校）、系统监控（多个 Agent 各自负责不同的监控指标）。

注意这些场景的共同特征：子任务之间的依赖关系弱，可以真正并行，结果汇总相对简单。

maxConcurrent = 8 的硬上限------这不是技术能力的上限，更像是一个对"超过这个数量协调成本开始失控"的隐性承认。

Claude Code：官方明确给了单 Agent 优先的建议

Claude Code 官方文档对单 Agent 和多 Agent 的选择给出了明确的建议：

优先考虑单 Agent 的情况：

任务步骤有明确的先后依赖关系
修改同一个文件或共享状态
任务复杂但可以顺序执行

考虑多 Agent 的情况：

任务需要跨前端/后端/测试等不同层面并行推进
子任务真的可以独立并行，相互依赖少
需要相互验证、挑战方案的独立视角

推荐的生产甜点配置：2-5 个 Teammate，每人 5-6 个任务。 超过 5 个 Teammate，协调开销开始超过并行收益。

这和 DeepMind 的研究结论高度一致：3-5 个 Agent 的精简配置，持续优于大型多 Agent 团队。

子任务不要直接用 Agent Teams，而是用 Subagents------通过 AgentTool 派发，主 Agent 不等待子 Agent 完成就继续其他工作，结果返回后再处理。更轻量，协调成本更低。

Hermes Agent：通过成本设计来反映应该谨慎使用

Hermes 的多 Agent 设计在架构上选择了"一个 Gateway 对应一个 Agent"------不是限制，是设计哲学：每个 Agent 应该有清晰的职责边界，不应该用复杂的内部路由来模糊这个边界。

需要多个 Agent 时，启动多个 Hermes 实例。这让多 Agent 的成本显式化------你需要主动决定启动第二个实例，而不是在配置里轻描淡写地增加一个 Agent。

显式的成本，天然地抑制了滥用多 Agent 的冲动。

Hermes 的 Skills 共享目录是多 Agent 之间协调的替代方案：一个 Agent 积累的经验放进共享目录，其他 Agent 受益------不是实时的 Agent 间通信，而是通过知识积累实现的异步协调。这避开了实时多 Agent 协调的高成本。

多 Agent 的正确使用场景

综合研究数据和三个框架的实践，多 Agent 真正有价值的场景：

场景一：真正可并行的子任务前端开发、后端开发、测试编写可以同时进行，相互依赖少。Agent Teams 在这种场景下的效果有案可查。

场景二：需要独立视角的验证一个 Agent 实现，另一个 Agent 独立审查------审查者不读实现者的推理过程，才能真正独立。（如果读了全部推理过程，就失去了独立性。）

场景三：不同领域的专业分工协调者用便宜快速的模型做任务路由，执行者用高质量模型做核心工作------这不只是多 Agent，也是模型分层的成本优化。

场景四：需要持续监控的多维度系统多个 Agent 各自监控不同的指标，异常时汇报------子任务完全独立，不需要实时协调。

什么时候单 Agent 更好

顺序依赖任务： 步骤 B 需要步骤 A 的结果。单 Agent 用 TodoWrite 顺序执行，不需要协调开销。

修改共享状态： 多个 Agent 同时修改同一个文件，产生冲突的概率超过了并行收益。

任务不够复杂： 简单任务的协调成本可能超过任务本身的执行成本。

调试优先： 单 Agent 的执行轨迹是线性的，出了问题知道在哪里。多 Agent 的问题可能在任何一个 Agent 里，调试难度指数级上升。

团队还没有多 Agent 的运维经验： 多 Agent 系统的可观测性需要额外投入------每个 Agent 的状态需要单独追踪，错误传播需要跨 Agent 追溯。在建立这个能力之前上多 Agent，往往是增加了风险而不是收益。