OpenClaw 子代理（Subagent）机制详解

- 摘要
- [1. 引言](#1. 引言)
- [2. 子代理概念与用途](#2. 子代理概念与用途)
- - [2.1 什么是子代理](#2.1 什么是子代理)
  - [2.2 子代理的核心用途](#2.2 子代理的核心用途)
  - [2.3 子代理与主 Agent 的关系](#2.3 子代理与主 Agent 的关系)
- [3. sessions_spawn 工具详解](#3. sessions_spawn 工具详解)
- - [3.1 工具概述](#3.1 工具概述)
  - [3.2 核心参数解析](#3.2 核心参数解析)
  - [3.3 基本使用示例](#3.3 基本使用示例)
  - [3.4 高级配置选项](#3.4 高级配置选项)
- [4. 子代理生命周期管理](#4. 子代理生命周期管理)
- - [4.1 生命周期阶段](#4.1 生命周期阶段)
  - [4.2 状态转换图](#4.2 状态转换图)
  - [4.3 生命周期管理工具](#4.3 生命周期管理工具)
  - [4.4 资源管理最佳实践](#4.4 资源管理最佳实践)
- [5. 任务分发与结果收集](#5. 任务分发与结果收集)
- - [5.1 任务分发策略](#5.1 任务分发策略)
  - [5.2 结果收集机制](#5.2 结果收集机制)
  - [5.3 结果处理示例](#5.3 结果处理示例)
- [6. 并行执行策略](#6. 并行执行策略)
- - [6.1 并行执行的优势](#6.1 并行执行的优势)
  - [6.2 并行执行模式对比](#6.2 并行执行模式对比)
  - [6.3 并行度控制](#6.3 并行度控制)
  - [6.4 任务依赖处理](#6.4 任务依赖处理)
- [7. 错误处理与重试](#7. 错误处理与重试)
- - [7.1 常见错误类型](#7.1 常见错误类型)
  - [7.2 错误处理机制](#7.2 错误处理机制)
  - [7.3 重试策略](#7.3 重试策略)
  - [7.4 错误监控与告警](#7.4 错误监控与告警)
- [8. 实战案例](#8. 实战案例)
- - [8.1 案例：多源数据聚合分析](#8.1 案例：多源数据聚合分析)
  - [8.2 案例：批量文档处理](#8.2 案例：批量文档处理)
- [9. 性能优化建议](#9. 性能优化建议)
- - [9.1 并行度优化](#9.1 并行度优化)
  - [9.2 资源配置优化](#9.2 资源配置优化)
  - [9.3 监控指标](#9.3 监控指标)
- [10. 总结](#10. 总结)
- 参考资料

摘要

本文深入探讨 OpenClaw 框架中的子代理（Subagent）机制，这是实现复杂任务分解与并行处理的核心能力。文章从子代理的基本概念出发，详细解析 sessions_spawn 工具的设计理念与使用方法，深入讲解子代理的完整生命周期管理流程。通过对比传统单线程处理模式，展示子代理在任务分发、结果收集、并行执行策略等方面的独特优势。结合实战案例，读者将掌握如何利用子代理机制构建高效、可靠的 AI Agent 系统，实现任务的智能调度与自动化处理。无论你是 OpenClaw 的初学者还是资深用户，都能从本文获得关于子代理机制的全面认知。

1. 引言

在现代 AI Agent 系统的设计中，任务分解与并行处理是提升系统效率的关键能力。随着大语言模型能力的不断增强，单一 Agent 往往难以应对复杂的多步骤任务，这就需要一种机制能够将大任务拆解为小任务，并协调多个子任务并行执行。

OpenClaw 作为一款强大的 AI Agent 框架，其子代理（Subagent）机制正是为解决这一问题而生。子代理允许主 Agent 将复杂任务委派给独立的子进程处理，每个子代理拥有独立的上下文和执行环境，能够专注于特定任务而不受主 Agent 状态的干扰。

这种设计模式带来了几个显著优势：

并行处理能力：多个子代理可以同时执行不同任务，大幅缩短总体执行时间。例如，当需要同时搜索多个数据源、处理多个文件或调用多个 API 时，子代理机制能够显著提升效率。

上下文隔离：每个子代理拥有独立的上下文空间，避免了任务之间的状态污染。这意味着即使某个子代理执行失败，也不会影响其他子代理的正常运行。

资源优化：子代理可以根据任务需求选择不同的模型和配置，实现资源的精细化分配。简单任务可以使用轻量级模型，复杂任务则可以使用更强大的推理模型。

容错机制：子代理的独立执行特性使得错误隔离和重试机制更容易实现，提升了系统的整体稳定性。

本文将从子代理的核心概念入手，逐步深入到技术实现细节，最后通过实战案例展示子代理机制的实际应用价值。

2. 子代理概念与用途

2.1 什么是子代理

子代理（Subagent）是 OpenClaw 框架中的一种轻量级 Agent 实例，由主 Agent 动态创建和管理。与主 Agent 相比，子代理具有以下特点：

特性	主 Agent	子代理
生命周期	持续运行，贯穿整个会话	临时创建，任务完成后终止
上下文	完整的会话历史和用户状态	独立的精简上下文
任务范围	处理用户交互、任务调度	执行特定子任务
资源占用	较高，维护完整状态	较低，按需创建销毁
通信方式	与用户和子代理双向通信	仅与主 Agent 通信

从架构角度看，子代理是主 Agent 的"工作节点"，负责执行具体的子任务。主 Agent 扮演"调度者"的角色，负责任务的分解、分发和结果整合。这种主从架构模式在分布式系统中非常常见，能够有效提升系统的并发处理能力。

2.2 子代理的核心用途

子代理机制在实际应用中有着广泛的用途，以下是几个典型场景：

并行数据采集：当需要从多个数据源获取信息时，可以为每个数据源创建一个子代理并行执行。例如，同时搜索多个搜索引擎、查询多个数据库、抓取多个网页内容等。

批量文件处理：在处理大量文件时，可以将文件分组交给不同的子代理处理，最后汇总结果。这在日志分析、文档处理、代码审查等场景中非常实用。

多模型协作：不同任务可能需要不同能力的模型。子代理机制允许为每个子任务选择最合适的模型，实现资源的优化配置。例如，简单分类任务使用轻量模型，复杂推理任务使用推理模型。

长时间任务处理：某些任务可能需要较长时间执行，如果由主 Agent 直接处理会阻塞用户交互。通过子代理处理这些任务，主 Agent 可以继续响应用户的其他请求。

错误隔离与重试：子代理的独立执行特性使得错误隔离更加容易。当某个子代理执行失败时，可以单独重试该子代理，而不影响其他已完成的任务。
复杂任务
简单任务
用户请求
主 Agent
任务分析
任务分解
创建子代理
子代理 1
子代理 2
子代理 3
结果汇总
返回用户
直接执行

2.3 子代理与主 Agent 的关系

在 OpenClaw 的架构中，主 Agent 和子代理之间存在着明确的层级关系和通信机制：

创建关系：主 Agent 通过 sessions_spawn 工具创建子代理，可以指定子代理的任务描述、使用的模型、超时时间等参数。

通信机制：子代理执行完成后，结果会自动推送给主 Agent。主 Agent 无需轮询检查子代理状态，这种推送机制减少了不必要的资源消耗。

状态管理：主 Agent 可以通过 subagents 工具查看当前活跃的子代理列表，也可以在必要时终止或引导子代理的行为。

资源继承：子代理可以继承主 Agent 的部分资源和权限，如文件系统访问、网络访问等，但也可以被限制在特定的权限范围内。

3. sessions_spawn 工具详解

3.1 工具概述

sessions_spawn 是 OpenClaw 框架中用于创建子代理的核心工具。通过这个工具，主 Agent 可以动态创建新的子代理实例，并为其分配特定的任务。sessions_spawn 的设计遵循"简单易用、灵活可控"的原则，提供了丰富的参数配置选项。

3.2 核心参数解析

sessions_spawn 工具支持多个参数，每个参数都有特定的用途：

参数名	类型	必填	说明
prompt	string	✅	子代理的任务描述，决定子代理的行为
model	string	❌	指定子代理使用的模型，默认继承主 Agent 模型
timeout	number	❌	子代理执行超时时间（秒），超时后自动终止
priority	string	❌	任务优先级：high、normal、low
context	object	❌	传递给子代理的上下文数据
tools	array	❌	限制子代理可使用的工具集
callback	string	❌	子代理完成后的回调处理方式

3.3 基本使用示例

以下是一个使用 sessions_spawn 创建子代理的代码示例：

python 复制代码

# 示例：使用 sessions_spawn 创建并行搜索子代理
import json

# 定义搜索任务
search_tasks = [
    {"topic": "OpenAI GPT-4 最新动态", "source": "web"},
    {"topic": "Claude 3 模型评测", "source": "web"},
    {"topic": "开源大模型排行榜", "source": "github"}
]

# 创建子代理配置
subagent_configs = []
for task in search_tasks:
    config = {
        "prompt": f"""
        请搜索以下主题的最新信息：
        主题：{task['topic']}
        数据源：{task['source']}
        
        要求：
        1. 找到最相关的 3-5 条结果
        2. 提取关键信息并总结
        3. 返回结构化的结果摘要
        """,
        "model": "gpt-4o-mini",  # 使用轻量模型
        "timeout": 60,           # 60秒超时
        "priority": "normal"
    }
    subagent_configs.append(config)

# 批量创建子代理
results = []
for config in subagent_configs:
    result = sessions_spawn(**config)
    results.append(result)
    print(f"子代理已创建: {result['subagent_id']}")

print(f"共创建 {len(results)} 个子代理")

上述代码展示了如何使用 sessions_spawn 工具创建多个子代理执行并行搜索任务。代码首先定义了三个搜索任务，每个任务包含主题和数据源信息。然后为每个任务构建子代理配置，包括任务描述、模型选择、超时时间等参数。最后批量创建子代理并记录结果。这种模式非常适合需要并行处理多个独立任务的场景，能够显著提升执行效率。

3.4 高级配置选项

除了基本参数外，sessions_spawn 还支持一些高级配置选项：

模型选择策略：可以根据任务复杂度选择不同的模型。简单任务使用轻量模型（如 gpt-4o-mini），复杂推理任务使用推理模型（如 o1-mini）。

工具权限控制：通过 tools 参数限制子代理可使用的工具集，增强安全性。例如，只允许子代理使用搜索工具，禁止文件操作。

上下文传递：通过 context 参数向子代理传递必要的上下文数据，避免子代理重复获取已知信息。

超时与重试：设置合理的超时时间，配合重试机制确保任务完成。超时后子代理会自动终止，主 Agent 可以决定是否重新创建。
结果队列子代理 2 子代理 1 sessions_spawn 主 Agent 结果队列子代理 2 子代理 1 sessions_spawn 主 Agent 调用 sessions_spawn 创建子代理 1 创建子代理 2 返回子代理 ID 执行任务执行任务推送结果 1 推送结果 2 通知结果就绪汇总处理结果

4. 子代理生命周期管理

4.1 生命周期阶段

子代理的生命周期从创建到终止经历多个阶段，理解这些阶段对于正确使用子代理机制至关重要：

创建阶段（Spawn）：主 Agent 调用 sessions_spawn 工具，系统为子代理分配资源、初始化上下文、准备执行环境。此阶段完成后，子代理进入就绪状态。

执行阶段（Execute）：子代理开始执行分配的任务。此阶段子代理可以调用工具、访问资源、与外部系统交互。执行阶段可能持续几秒到几分钟，取决于任务复杂度。

等待阶段（Pending）：如果子代理需要等待外部资源（如网络请求、用户输入），会进入等待状态。等待期间资源占用较低，但子代理仍然活跃。

完成阶段（Complete）：子代理成功完成任务，将结果推送给主 Agent。系统回收子代理资源，子代理进入终止状态。

终止阶段（Terminate）：子代理被终止，可能是因为任务完成、超时、被主 Agent 主动终止或发生不可恢复的错误。终止后子代理不再占用任何资源。

4.2 状态转换图

sessions_spawn 调用
资源分配完成
开始执行任务
等待外部资源
资源就绪
任务成功完成
执行出错
结果推送完成
错误处理完成
主动终止
超时终止
超时终止
Created
Ready
Executing
Pending
Completed
Failed
Terminated

4.3 生命周期管理工具

OpenClaw 提供了 subagents 工具用于管理子代理的生命周期：

list 操作：列出当前活跃的所有子代理，包括其状态、创建时间、任务描述等信息。

python 复制代码

# 示例：列出当前活跃的子代理
active_subagents = subagents(action="list", recentMinutes=30)

for sa in active_subagents:
    print(f"ID: {sa['id']}")
    print(f"状态: {sa['status']}")
    print(f"任务: {sa['task'][:50]}...")
    print(f"运行时间: {sa['duration']}秒")
    print("-" * 40)

上述代码展示了如何使用 subagents 工具的 list 操作获取当前活跃的子代理列表。代码遍历返回的子代理信息，打印每个子代理的 ID、状态、任务描述和运行时间。recentMinutes 参数用于筛选最近 30 分钟内创建的子代理，避免返回过多历史数据。这种监控方式对于了解系统运行状态、排查问题非常有帮助。

kill 操作：强制终止指定的子代理。当子代理执行时间过长或出现异常时，可以使用此操作终止子代理。

python 复制代码

# 示例：终止超时的子代理
subagent_id = "sa_abc123"

try:
    result = subagents(action="kill", target=subagent_id)
    print(f"子代理 {subagent_id} 已终止")
except Exception as e:
    print(f"终止失败: {e}")

steer 操作：向正在执行的子代理发送引导指令，影响其后续行为。这允许主 Agent 在子代理执行过程中进行干预和调整。

python 复制代码

# 示例：引导子代理行为
subagents(
    action="steer",
    target="sa_abc123",
    message="请优先处理用户隐私相关的数据，跳过公开数据"
)

4.4 资源管理最佳实践

在管理子代理生命周期时，需要注意以下最佳实践：

合理设置超时：根据任务复杂度设置合理的超时时间。过短会导致任务未完成就被终止，过长会浪费资源。

及时清理：对于已完成或失败的子代理，系统会自动清理资源。但如果主 Agent 异常退出，可能需要手动清理残留的子代理。

监控活跃数量：避免同时创建过多子代理，可能导致资源耗尽。建议根据系统资源情况设置并发上限。

优雅终止：在系统关闭时，应先终止所有活跃的子代理，确保资源正确释放。

5. 任务分发与结果收集

5.1 任务分发策略

任务分发是子代理机制的核心环节，合理的分发策略能够最大化系统效率。OpenClaw 支持多种任务分发模式：

均匀分发模式：将任务均匀分配给多个子代理，每个子代理处理相同数量的任务。适用于任务复杂度相近的场景。

python 复制代码

# 示例：均匀分发任务
def distribute_evenly(tasks, num_subagents):
    """将任务均匀分发给子代理"""
    chunk_size = len(tasks) // num_subagents
    chunks = []
    
    for i in range(num_subagents):
        start = i * chunk_size
        if i == num_subagents - 1:
            # 最后一个子代理处理剩余所有任务
            chunks.append(tasks[start:])
        else:
            chunks.append(tasks[start:start + chunk_size])
    
    return chunks

# 使用示例
all_files = ["file1.txt", "file2.txt", "file3.txt", "file4.txt", "file5.txt"]
task_chunks = distribute_evenly(all_files, 2)

for i, chunk in enumerate(task_chunks):
    sessions_spawn(
        prompt=f"处理以下文件: {chunk}",
        model="gpt-4o-mini"
    )

上述代码展示了均匀分发任务的实现方式。distribute_evenly 函数接收任务列表和子代理数量，将任务均匀分割成多个块。最后一个子代理会处理剩余的所有任务，确保没有任务被遗漏。这种分发方式简单直接，适用于任务量较大且任务复杂度相近的场景。

优先级分发模式：根据任务优先级决定分发顺序，高优先级任务优先处理。适用于有时间敏感性任务的场景。

动态负载均衡：根据子代理的当前负载动态分配任务，避免某些子代理过载而其他子代理空闲。

5.2 结果收集机制

子代理执行完成后，结果会自动推送给主 Agent。OpenClaw 采用推送模式而非轮询模式，这种设计减少了不必要的资源消耗：

自动推送：子代理完成后自动将结果推送到主 Agent的结果队列，主 Agent 无需主动查询。

结果格式：子代理结果包含任务 ID、执行状态、输出内容、执行时间、资源消耗等信息。

顺序保证：虽然子代理并行执行，但结果收集可以按创建顺序或完成顺序进行。
结果队列
子代理池
推送
推送
推送
子代理 1
子代理 2
子代理 3
结果 1
结果 2
结果 3
主 Agent
最终结果

5.3 结果处理示例

python 复制代码

# 示例：收集和处理子代理结果
import time

def collect_subagent_results(subagent_ids, timeout=300):
    """收集子代理结果，带超时机制"""
    results = {}
    start_time = time.time()
    
    while len(results) < len(subagent_ids):
        # 检查超时
        if time.time() - start_time > timeout:
            print("结果收集超时")
            break
        
        # 获取活跃子代理状态
        active = subagents(action="list")
        active_ids = {sa['id'] for sa in active}
        
        # 检查已完成的子代理
        for sid in subagent_ids:
            if sid not in results and sid not in active_ids:
                # 子代理已完成，获取结果
                result = get_subagent_result(sid)
                results[sid] = result
                print(f"子代理 {sid} 完成: {result['status']}")
        
        time.sleep(1)  # 避免频繁检查
    
    return results

# 使用示例
subagent_ids = ["sa_001", "sa_002", "sa_003"]
results = collect_subagent_results(subagent_ids)

# 汇总结果
success_count = sum(1 for r in results.values() if r['status'] == 'success')
print(f"成功: {success_count}/{len(results)}")

上述代码展示了如何收集和处理子代理的执行结果。collect_subagent_results 函数接收子代理 ID 列表和超时时间，循环检查子代理状态直到所有结果收集完成或超时。函数通过 subagents 工具获取活跃子代理列表，判断哪些子代理已完成执行。对于已完成的子代理，调用 get_subagent_result 获取详细结果。最后统计成功数量，输出汇总信息。这种模式确保了结果收集的可靠性，同时避免了无限等待。

6. 并行执行策略

6.1 并行执行的优势

并行执行是子代理机制的核心优势之一。通过同时运行多个子代理，可以显著缩短总体执行时间。以下是并行执行的几个关键优势：

时间效率：假设有 10 个任务，每个任务需要 10 秒。串行执行需要 100 秒，而 10 个子代理并行执行只需要约 10 秒。

资源利用率：并行执行可以充分利用多核 CPU 和网络带宽，提高硬件资源的利用率。

响应速度：对于用户请求，并行处理可以更快返回结果，提升用户体验。

6.2 并行执行模式对比

执行模式	描述	适用场景	优势	劣势
串行执行	任务逐个执行	任务间有依赖关系	简单可控	效率低
并行执行	任务同时执行	任务相互独立	效率高	资源消耗大
混合执行	部分串行部分并行	复杂任务流程	平衡效率与复杂度	实现复杂
流水线执行	任务按阶段流转	批量数据处理	吞吐量高	延迟较高

6.3 并行度控制

并行度是指同时执行的子代理数量。合理的并行度设置需要在效率和资源消耗之间取得平衡：

python 复制代码

# 示例：控制并行度的任务分发
import asyncio

class ParallelExecutor:
    def __init__(self, max_concurrent=5):
        self.max_concurrent = max_concurrent
        self.semaphore = asyncio.Semaphore(max_concurrent)
    
    async def execute_task(self, task):
        """执行单个任务，受信号量控制"""
        async with self.semaphore:
            # 创建子代理执行任务
            result = await create_subagent_async(task)
            return result
    
    async def execute_all(self, tasks):
        """并行执行所有任务，控制并发数"""
        coroutines = [self.execute_task(task) for task in tasks]
        results = await asyncio.gather(*coroutines)
        return results

# 使用示例
executor = ParallelExecutor(max_concurrent=3)
tasks = [{"id": i, "data": f"task_{i}"} for i in range(10)]

# 最多同时运行 3 个子代理
results = asyncio.run(executor.execute_all(tasks))
print(f"完成 {len(results)} 个任务")

上述代码展示了如何控制并行度的实现方式。ParallelExecutor 类使用信号量（Semaphore）机制限制同时执行的子代理数量。execute_task 方法在执行前获取信号量，执行完成后释放，确保并发数不超过设定值。execute_all 方法将所有任务提交给事件循环并行执行。这种模式在资源有限的环境中非常重要，可以防止系统因创建过多子代理而耗尽资源。

6.4 任务依赖处理

在实际应用中，任务之间可能存在依赖关系。例如，任务 B 需要等待任务 A 的结果才能开始执行。OpenClaw 支持通过任务编排来处理这种依赖：
任务 A: 数据获取
任务 B: 数据清洗
任务 C: 数据验证
任务 D: 数据分析
任务 E: 生成报告

7. 错误处理与重试

7.1 常见错误类型

在子代理执行过程中，可能遇到多种类型的错误：

错误类型	描述	处理策略
超时错误	子代理执行时间超过设定阈值	增加超时时间或优化任务
资源错误	内存、CPU、网络等资源不足	降低并行度或增加资源
工具错误	子代理调用的工具执行失败	检查工具配置和权限
模型错误	AI 模型调用失败或返回异常	重试或切换模型
逻辑错误	任务描述不清晰或执行逻辑有误	优化任务描述

7.2 错误处理机制

OpenClaw 提供了完善的错误处理机制，确保子代理失败不会导致整个系统崩溃：

自动隔离：单个子代理的错误不会影响其他子代理的执行，错误被隔离在子代理内部。

错误传播：子代理错误信息会随结果一起推送给主 Agent，主 Agent 可以根据错误类型决定后续处理。

优雅降级：当部分子代理失败时，系统可以继续处理成功的部分，而不是完全失败。

7.3 重试策略

对于可恢复的错误，可以实现重试机制提高成功率：

python 复制代码

# 示例：带重试机制的子代理创建
import time

def spawn_with_retry(prompt, max_retries=3, base_timeout=60):
    """创建子代理，支持自动重试"""
    for attempt in range(max_retries):
        try:
            # 指数退避：每次重试增加超时时间
            timeout = base_timeout * (2 ** attempt)
            
            result = sessions_spawn(
                prompt=prompt,
                timeout=timeout,
                priority="normal"
            )
            
            # 等待结果
            subagent_id = result['id']
            final_result = wait_for_result(subagent_id, timeout)
            
            if final_result['status'] == 'success':
                return final_result
            else:
                print(f"尝试 {attempt + 1} 失败: {final_result['error']}")
                
        except TimeoutError:
            print(f"尝试 {attempt + 1} 超时")
        except Exception as e:
            print(f"尝试 {attempt + 1} 异常: {e}")
        
        # 重试前等待
        if attempt < max_retries - 1:
            wait_time = 2 ** attempt  # 指数退避
            time.sleep(wait_time)
    
    raise Exception(f"子代理执行失败，已重试 {max_retries} 次")

# 使用示例
try:
    result = spawn_with_retry(
        prompt="分析以下日志文件中的错误模式...",
        max_retries=3,
        base_timeout=30
    )
    print("执行成功:", result['output'])
except Exception as e:
    print("执行失败:", e)

上述代码展示了带重试机制的子代理创建方式。spawn_with_retry 函数接收任务描述、最大重试次数和基础超时时间作为参数。每次重试时，超时时间按指数增长（指数退避策略），给任务更多执行时间。函数捕获超时错误和其他异常，在重试前等待一段时间（同样使用指数退避）。这种重试机制能够有效处理临时性错误，如网络波动、服务暂时不可用等情况，显著提高任务成功率。

7.4 错误监控与告警

对于生产环境，建议实现错误监控和告警机制：

python 复制代码

# 示例：错误监控装饰器
def monitor_errors(func):
    """监控函数执行错误并记录"""
    def wrapper(*args, **kwargs):
        try:
            result = func(*args, **kwargs)
            log_success(func.__name__, result)
            return result
        except Exception as e:
            log_error(func.__name__, e)
            if is_critical_error(e):
                send_alert(f"严重错误: {e}")
            raise
    return wrapper

@monitor_errors
def process_with_subagent(task):
    """使用子代理处理任务"""
    return sessions_spawn(prompt=task['prompt'])

8. 实战案例

8.1 案例：多源数据聚合分析

假设我们需要从多个数据源获取信息并进行聚合分析。使用子代理机制可以并行获取数据，显著提升效率：

python 复制代码

# 实战案例：多源数据聚合分析
import json
from datetime import datetime

class DataAggregator:
    """多源数据聚合器"""
    
    def __init__(self):
        self.sources = [
            {"name": "GitHub", "type": "api", "endpoint": "github.com"},
            {"name": "HackerNews", "type": "api", "endpoint": "hacker-news.firebaseio.com"},
            {"name": "Reddit", "type": "api", "endpoint": "reddit.com"},
            {"name": "Twitter", "type": "api", "endpoint": "api.twitter.com"},
            {"name": "Medium", "type": "web", "endpoint": "medium.com"}
        ]
    
    def create_subagent_prompt(self, source, query):
        """为每个数据源生成子代理任务描述"""
        return f"""
        你是一个数据采集专家。请从 {source['name']} 获取关于 "{query}" 的信息。
        
        数据源类型: {source['type']}
        端点: {source['endpoint']}
        
        要求:
        1. 获取最相关的 10 条结果
        2. 提取标题、链接、摘要、发布时间
        3. 按相关度排序
        4. 返回 JSON 格式结果
        
        输出格式:
        {{
            "source": "{source['name']}",
            "query": "{query}",
            "results": [
                {{
                    "title": "...",
                    "link": "...",
                    "summary": "...",
                    "published_at": "...",
                    "relevance_score": 0.0-1.0
                }}
            ],
            "total": 10,
            "timestamp": "ISO格式时间"
        }}
        """
    
    def aggregate(self, query):
        """并行聚合多个数据源"""
        print(f"开始聚合查询: {query}")
        start_time = datetime.now()
        
        # 创建并行子代理
        subagent_ids = []
        for source in self.sources:
            prompt = self.create_subagent_prompt(source, query)
            result = sessions_spawn(
                prompt=prompt,
                model="gpt-4o-mini",
                timeout=120
            )
            subagent_ids.append(result['id'])
            print(f"  已创建子代理: {source['name']} (ID: {result['id']})")
        
        # 收集结果
        results = collect_subagent_results(subagent_ids, timeout=180)
        
        # 汇总分析
        aggregated = self.merge_results(results, query)
        
        duration = (datetime.now() - start_time).total_seconds()
        print(f"聚合完成，耗时: {duration:.2f}秒")
        
        return aggregated
    
    def merge_results(self, results, query):
        """合并和去重结果"""
        all_items = []
        source_stats = {}
        
        for sid, result in results.items():
            if result['status'] == 'success':
                data = json.loads(result['output'])
                all_items.extend(data.get('results', []))
                source_stats[data['source']] = len(data.get('results', []))
            else:
                print(f"  子代理 {sid} 失败: {result.get('error')}")
        
        # 去重（基于链接）
        seen_links = set()
        unique_items = []
        for item in all_items:
            if item['link'] not in seen_links:
                seen_links.add(item['link'])
                unique_items.append(item)
        
        # 按相关度排序
        unique_items.sort(key=lambda x: x.get('relevance_score', 0), reverse=True)
        
        return {
            "query": query,
            "total_sources": len(self.sources),
            "successful_sources": len(source_stats),
            "total_items": len(all_items),
            "unique_items": len(unique_items),
            "top_results": unique_items[:20],
            "source_stats": source_stats
        }

# 使用示例
aggregator = DataAggregator()
result = aggregator.aggregate("OpenAI GPT-4 最新功能")
print(json.dumps(result, indent=2, ensure_ascii=False))

上述代码展示了一个完整的多源数据聚合分析案例。DataAggregator 类封装了数据聚合的完整流程：首先定义了 5 个数据源（GitHub、HackerNews、Reddit、Twitter、Medium），然后为每个数据源创建独立的子代理并行获取数据。create_subagent_prompt 方法生成标准化的任务描述，确保每个子代理返回统一格式的结果。aggregate 方法协调整个聚合过程，创建子代理、收集结果、汇总分析。merge_results 方法处理结果合并、去重和排序。这个案例充分展示了子代理机制在并行数据采集场景中的应用价值。

8.2 案例：批量文档处理

另一个常见场景是批量处理文档，如日志分析、报告生成等：

python 复制代码

# 实战案例：批量日志分析
class LogAnalyzer:
    """批量日志分析器"""
    
    def __init__(self, log_dir, chunk_size=1000):
        self.log_dir = log_dir
        self.chunk_size = chunk_size
    
    def split_logs(self, log_files):
        """将日志文件分割成块"""
        chunks = []
        current_chunk = []
        current_size = 0
        
        for log_file in log_files:
            file_size = get_file_size(log_file)
            if current_size + file_size > self.chunk_size:
                if current_chunk:
                    chunks.append(current_chunk)
                current_chunk = [log_file]
                current_size = file_size
            else:
                current_chunk.append(log_file)
                current_size += file_size
        
        if current_chunk:
            chunks.append(current_chunk)
        
        return chunks
    
    def analyze_parallel(self, pattern):
        """并行分析日志"""
        log_files = list_log_files(self.log_dir)
        chunks = self.split_logs(log_files)
        
        print(f"共 {len(log_files)} 个日志文件，分成 {len(chunks)} 个块")
        
        # 为每个块创建子代理
        subagent_ids = []
        for i, chunk in enumerate(chunks):
            prompt = f"""
            分析以下日志文件，查找匹配 "{pattern}" 的错误模式：
            
            文件列表: {chunk}
            
            要求:
            1. 统计每种错误类型的出现次数
            2. 提取错误堆栈信息
            3. 分析错误发生的时间分布
            4. 提供修复建议
            
            输出格式: JSON
            """
            
            result = sessions_spawn(
                prompt=prompt,
                model="gpt-4o",
                timeout=300,
                tools=["read", "exec"]
            )
            subagent_ids.append(result['id'])
        
        # 收集并合并分析结果
        results = collect_subagent_results(subagent_ids)
        return self.merge_analysis(results)

9. 性能优化建议

9.1 并行度优化

选择合适的并行度是性能优化的关键。以下是一些建议：

场景	推荐并行度	说明
CPU 密集型任务	CPU 核心数	避免过多上下文切换
I/O 密集型任务	CPU 核心数 × 2-4	充分利用 I/O 等待时间
网络请求任务	10-20	避免触发目标站点限流
混合型任务	CPU 核心数 × 1.5	平衡 CPU 和 I/O

9.2 资源配置优化

python 复制代码

# 示例：根据任务类型选择模型
def select_model_for_task(task):
    """根据任务特征选择合适的模型"""
    complexity = analyze_task_complexity(task)
    
    if complexity == "simple":
        return "gpt-4o-mini"  # 轻量模型，成本低
    elif complexity == "moderate":
        return "gpt-4o"       # 平衡模型
    else:
        return "o1-mini"      # 推理模型，能力强

def analyze_task_complexity(task):
    """分析任务复杂度"""
    prompt = task.get('prompt', '')
    
    # 简单启发式规则
    if len(prompt) < 200 and '分析' not in prompt:
        return "simple"
    elif '推理' in prompt or '复杂' in prompt:
        return "complex"
    else:
        return "moderate"

9.3 监控指标

建议监控以下指标以评估子代理机制的性能：

平均执行时间：子代理从创建到完成的平均时间
成功率：成功完成的子代理比例
资源利用率：CPU、内存、网络的使用情况
队列长度：等待执行的子代理数量
错误率：各类错误的发生频率

10. 总结

本文全面深入地探讨了 OpenClaw 框架中的子代理（Subagent）机制，从基本概念到高级应用，从理论分析到实战案例，为读者呈现了一个完整的技术图景。

核心要点回顾：

子代理概念与价值：子代理是 OpenClaw 实现任务分解与并行处理的核心机制。通过将复杂任务委派给独立的子代理实例，系统能够实现并行执行、上下文隔离、资源优化和容错处理。这种设计模式在现代 AI Agent 系统中具有重要价值，能够显著提升系统的处理能力和响应速度。

sessions_spawn 工具：作为创建子代理的核心工具，sessions_spawn 提供了丰富的参数配置选项，包括模型选择、超时设置、优先级控制、工具权限等。合理使用这些参数，可以精细控制子代理的行为，实现资源的最优配置。

生命周期管理：子代理从创建到终止经历多个阶段，理解这些阶段对于正确使用子代理机制至关重要。OpenClaw 提供了 subagents 工具用于管理子代理的生命周期，包括列出活跃子代理、终止子代理、引导子代理行为等操作。

任务分发与结果收集：合理的任务分发策略和高效的结果收集机制是子代理机制发挥作用的关键。均匀分发、优先级分发、动态负载均衡等策略各有适用场景。推送式的结果收集机制减少了资源消耗，提高了系统效率。

并行执行策略：并行执行是子代理机制的核心优势，能够显著缩短任务执行时间。通过控制并行度、处理任务依赖、优化资源配置，可以最大化并行执行的效益。

错误处理与重试：完善的错误处理机制确保子代理失败不会导致系统崩溃。自动隔离、错误传播、优雅降级等机制保障了系统的稳定性。重试机制能够有效处理临时性错误，提高任务成功率。

实战应用：通过多源数据聚合分析和批量日志处理两个实战案例，展示了子代理机制在实际场景中的应用方式。这些案例提供了可复用的代码模板，读者可以根据自己的需求进行改造和扩展。

子代理机制是 OpenClaw 框架的核心能力之一，掌握这一机制对于构建高效、可靠的 AI Agent 系统至关重要。希望本文能够帮助读者深入理解子代理机制，并在实际项目中灵活运用。

OpenClaw 子代理（Subagent）机制详解

目录

摘要

1. 引言

2. 子代理概念与用途

2.1 什么是子代理

2.2 子代理的核心用途

2.3 子代理与主 Agent 的关系

3. sessions_spawn 工具详解

3.1 工具概述

3.2 核心参数解析

3.3 基本使用示例

3.4 高级配置选项

4. 子代理生命周期管理

4.1 生命周期阶段

4.2 状态转换图

4.3 生命周期管理工具

4.4 资源管理最佳实践

5. 任务分发与结果收集

5.1 任务分发策略

5.2 结果收集机制

5.3 结果处理示例

6. 并行执行策略

6.1 并行执行的优势

6.2 并行执行模式对比

6.3 并行度控制

6.4 任务依赖处理

7. 错误处理与重试

7.1 常见错误类型

7.2 错误处理机制

7.3 重试策略

7.4 错误监控与告警

8. 实战案例

8.1 案例：多源数据聚合分析

8.2 案例：批量文档处理

9. 性能优化建议

9.1 并行度优化

9.2 资源配置优化

9.3 监控指标

10. 总结

参考资料