核心论点
编排层(Orchestration)已成多 Agent 系统的核心竞争力。何时 spawn 子 Agent、如何委派任务、传递什么信息本身是可 RL 优化的决策过程。编排决策优化的收益≥单 Agent 能力优化。
一、编排五层模型
1.1 定义(来源:arXiv 2601.13671)
多 Agent 系统从下到上分为五层:
| 层级 | 名称 | 职责 | 优化空间 |
|---|---|---|---|
| L5 | 全局规划(Global Planner) | 任务分解、决定 spawn 时机 | RL优化:何时分解任务 |
| L4 | Agent 委派(Agent Dispatcher) | 选择最优 Agent 执行、分配资源 | RL优化:Agent选择策略 |
| L3 | 上下文传递(Context Router) | 决定传给子 Agent 哪些信息 | RL优化:信息最小化 |
| L2 | Agent 执行(Agent Executor) | 单个 Agent 内部推理 + 工具调用 | 传统优化:模型能力 |
| L1 | 基础能力(Foundation Models) | LLM + 工具库 | 基础设施 |
1.2 核心发现
- L5-L3(编排层)贡献 60%+ 的性能差异 --- 与 L2 单 Agent 能力相当或更高
- L5-L3 已成独立研究方向 --- 不再仅是工程实现细节
- RL 优化成为编排层的标准方法 --- 编排决策本身可学习、可优化
数据来源:[待补充] MAFBench、编排五层模型论文完整引用
二、编排层的三个关键决策
2.1 何时分解任务(L5 决策)
用户任务 → Agent规划器
├─ 任务足够简单?→ 直接执行,不分解
├─ 任务可并行分解?→ spawn N 个子 Agent 并行
└─ 任务需顺序分解?→ spawn 子 Agent 顺序链式执行
评测标准:决策准确率、推理成本、完成时间
RL优化空间:通过强化学习学习"最优分解粒度",不同任务类型的分解策略
2.2 选择哪个 Agent(L4 决策)
可用 Agent 池:[Agent-检索, Agent-代码, Agent-综合, ...]
↓
决策者需要考虑:
- Agent 擅长领域是否覆盖子任务?
- Agent 当前负载如何?
- Agent 之间是否存在依赖关系?
↓
输出:最优 Agent 选择 + 委派策略
RL优化空间:学习"何时用哪个 Agent"的最优决策(类似 GoA 图路由)
2.3 传什么信息(L3 决策)
父 Agent → 子 Agent
├─ 传完整上下文? → Token 浪费,延迟高
├─ 传最小必要信息? → 降低成本,但可能信息不足
└─ 传特定摘要? → 需要总结能力
评测:信息完整性 × Token 效率 × 执行准确率
RL优化空间:学习"对不同子任务,最小必要信息是什么"
三、编排层 RL 优化的实现框架
3.1 状态空间(State)
python
{
"task": str, # 用户原始任务
"available_agents": [Agent], # 可用 Agent 列表
"current_depth": int, # 分解深度
"resource_budget": float, # 剩余 Token/时间预算
"history": [decisions] # 历史决策
}
3.2 动作空间(Action)
python
{
"L5_action": "分解|不分解",
"L4_action": "选择 Agent X",
"L3_action": "传递信息集合 {ctx1, ctx2, ...}"
}
3.3 奖励函数(Reward)
reward = w1 * accuracy - w2 * latency - w3 * token_cost - w4 * error_rate
其中:
- accuracy:最终答案准确率
- latency:完成时间
- token_cost:总 Token 消耗
- error_rate:中间错误率
参考论文:[待补充] RL for Multi-Agent Orchestration (arXiv 2605.02801)
四、与编排五层模型的关系
4.1 静态编排 vs 动态编排
- 静态:编排规则硬编码(GoA:3Agent>6Agent全连接)
- 动态:编排规则通过 RL 学习,根据任务实时适应
4.2 编排层 vs 工具层
| 维度 | 工具层(L2以下) | 编排层(L3-L5) |
|---|---|---|
| 优化对象 | 单 Agent 能力 | Agent 间协作 |
| 优化方法 | SFT/RLHF/instruction | RL + 强化学习 |
| 性能收益 | +10-20% | +30-60% |
| 复杂度 | 中等 | 高 |
五、OpenClaw 应用前景
5.1 当前编排模式
-
待补充\] OpenClaw 当前是静态编排还是动态编排?
5.2 优化路线图
-
Phase 1:实现静态编排五层模型框架
- 定义 L5-L3 的决策规则库
- 搭建 Agent 池管理
- 测量基准性能
-
Phase 2:引入 RL 优化
- 在测试环境中用 RL 优化编排决策
- 对标 MAFBench 基准
- 迭代奖励函数
-
Phase 3:生产化
- 编排规则持续学习(在线 RL)
- 任务类型特异化编排策略
- 成本-效益权衡
六、当前红线(OpenClaw)
🟠 关键问题待拍板:
- OpenClaw 多 Agent 场景的优先级是什么?
- 是否需要立即投入编排层 RL 优化,还是先完善静态编排?
🟡 实施建议:
- 先确保静态编排框架完整(五层模型框架实现)
- 在 1-2 个典型多 Agent 场景(如"需求分析→架构设计→代码生成")中试点 RL 优化
- 积累数据后评估投入 ROI
参考资源
- 论文:编排五层模型 (arXiv 2601.13671) --- [待补充完整引用]
- 论文:MAFBench --- Multi-Agent Framework Benchmark --- [待补充]
- 论文:RL for Multi-Agent Orchestration (arXiv 2605.02801) --- [待补充]
- 内部参考:Agent 系统架构三角(MEMORY.md 条例#1)
数据完整性声明:本 v0.1 为草稿版本,标注「待补充」的部分需要:
- 完整论文数据与性能对比
- OpenClaw 当前编排模式详情
- 多 Agent 场景的实测数据
待拍板部分:
- OpenClaw 编排层投入优先级
- 是否立即启动 RL 优化 Phase,还是先完善静态编排
- 奖励函数的具体权重设定(w1-w4)
待补充 Checklist:
- 编排五层论文完整数据
- MAFBench 性能对比
- OpenClaw 当前多 Agent 架构详情
- RL 优化的成本-收益估算
- 典型场景下的编排决策树示例