面向高阶运维与架构师,本文实操演示如何利用 openJiuwen 平台的 JiuwenSwarm AgentTeam 多智能体协同能力,构建一套覆盖故障注入、影响面分析、恢复验证全流程的混沌工程自动化方案。
一、平台与核心概念
1.1 openJiuwen 架构概览
openJiuwen 是一个开源 AI Agent 平台,系统架构由三大核心模块构成:
- openJiuwen Core:提供 AI Agent 开发、运行、调优与演进的全套 SDK 及工具
- openJiuwen Studio:提供零码、低码可视化开发和工作流编排,模型、知识库、插件等资源管理能力
- openJiuwen Ops:面向 Agent 运行与部署管理,将 Agent 从"开发态"带到"生产态"

平台原生支持两种预置智能体类型:
|--------------------|--------------------------------|----------------|
| 智能体类型 | 特点 | 适用场景 |
| ReActAgent | 基于「思考→行动→观察」循环迭代,具备多轮推理与自我纠错能力 | 复杂推理、动态决策、策略调整 |
| Workflow Agent | 严格按预设流程执行多步骤任务,强调规范化与高效执行 | 结构清晰、步骤明确的任务 |
在混沌工程场景中,故障注入和恢复验证等需要动态判断的环节可选用 ReActAgent,而预定义的巡检流程则适合 Workflow Agent。
1.2 JiuwenSwarm 与 AgentTeam
JiuwenSwarm 是一款基于 openJiuwen Python 框架开发的 AI Agent。其 AgentTeam 功能采用 Leader-Teammate 协作框架,支持多智能体自主分工、高效沟通与无缝协作:
- Leader:负责任务接收、拆分、派发、进度监控与最终总结
- Teammate:负责认领任务、执行任务、汇报进度
关键协作工具包括:
|--------------|-------------------------------------|
| 工具 | 作用 |
| bash | 执行命令行操作(读取文件、运行脚本等) |
| send_message | Leader 与 Teammate 之间派发/催促/汇报任务 |
| list_members | 查看团队成员状态(busy/ready) |
| view_task | 查看任务看板状态(pending/claimed/completed) |

二、实操:搭建混沌工程 Agent 团队
2.1 环境准备
- 在飞书群中添加已创建的飞书机器人,作为交互入口
- 机器人代理用户与 JiuwenSwarm 进行交互
在飞书对话中,输入以下命令开启 AgentTeams 模式:
/mode team
2.2 定义混沌工程 Agent 团队角色
在 AgentTeam 模式下,输入需求描述来安排任务。以混沌工程自动化为例,向 Leader 发送任务指令:
"请帮我完成一次混沌工程演练:对订单服务进行故障注入,分析影响面,验证恢复能力,最终输出演练报告。"
Leader 接收任务后,将自动完成以下工作:
- 任务拆解:将整体演练拆分为串行任务队列
-
fault-injection(故障注入) →impact-analysis(影响面分析) →recovery-verification(恢复验证) →drill-report(演练报告)
- 任务派发:Leader 给对应的 Teammate 发送任务指令
Leader 派发故障注入任务示例(内部自动执行):
teammate-chaos,请认领 fault-injection 任务。目标:对订单服务模拟网络延迟与 Pod 故障。

2.3 故障注入阶段(命令执行)

Teammate 认领 fault-injection 任务后,状态变为 busy,通过 bash 工具执行故障模拟命令。
例如,Teammate 可通过 bash 执行以下类型的操作:
-
调用已有的故障注入工具(如 Chaos Mesh、ChaosBlade 等)的 CLI 命令
-
执行 kubectl 命令模拟 Pod 故障
-
执行网络层面的延迟、丢包模拟
示例:通过 bash 工具调用故障注入命令(具体命令取决于已部署的工具链)
kubectl apply -f network-delay-experiment.yaml
故障注入完成后,Teammate 将执行结果通过 send_message 汇报给 Leader。
2.4 影响面分析阶段
Leader 收到故障注入完成的通知后,立即推进下一个任务:
fault-injection 已完成,请继续认领 impact-analysis 任务。
监测订单服务的响应时间、错误率、可用性指标,分析故障影响范围。
Teammate 执行影响面分析:
- 通过
bash工具查询监控系统(如 Prometheus)的指标数据 - 检查服务健康状态与日志
- 分析受影响的下游服务范围
2.5 恢复验证阶段
分析完成后,Leader 推进恢复验证任务:
impact-analysis 已完成。请认领 recovery-verification 任务。
执行故障清除,验证服务是否恢复正常,确认各项指标回归基线。
Teammate 执行恢复操作:
- 通过
bash清除故障注入规则 - 验证服务 Pod 恢复正常
- 确认指标回归基线
2.6 自动推进与进度监控
整个过程中,任务推进遵循"完成→推进下一个"的自动循环:
fault-injection 完成 → 推进 impact-analysis
impact-analysis 完成 → 推进 recovery-verification
recovery-verification 完成 → 推进 drill-report
任务看板会自动识别依赖关系,保证串行任务无依赖问题,确保流程顺畅。通过 view_task 可实时查看任务状态(pending/claimed/completed),通过 list_members 查看成员状态(busy/ready)。
当所有任务完成后,Leader 会输出最终的演练总结报告,包含故障注入情况、影响面分析结论、恢复验证结果等关键信息。



三、关键能力总结
|--------------------------|-----------------------------------|
| 平台能力 | 混沌工程场景应用 |
| 基于事件驱动的多 Agent 控制 | 演练过程中随时响应新指令(如紧急中止、调整故障参数),无需阻塞等待 |
| 多实例状态管理与自动恢复 | 任务执行状态持久化,中断后可从断点继续执行,保障长时演练不中断 |
| 全链路实时调测 | 可视化任务执行路径,实时监控故障注入进度与影响分析结果 |
| Leader-Teammate 任务自动调度 | 自动完成故障注入→影响分析→恢复验证→报告输出的闭环流转 |
| bash 工具执行 | 灵活调用各类故障注入工具 CLI,不受工具类型限制 |
| view_task / list_members | 实时监控演练进度与团队状态 |
四、总结
通过 JiuwenSwarm AgentTeam 的 Leader-Teammate 协作框架,运维与架构团队可以快速构建一支自动化混沌工程演练团队。从故障注入命令执行、影响面分析到恢复验证,整个流程由 Leader 自动编排、Teammate 分工执行,结合平台的事件驱动控制与状态持久化能力,确保演练过程可观测、可中断、可恢复。
核心优势:
- 自动化编排:Leader 自动拆解与调度,减少人工干预
- 灵活执行:通过 bash 工具对接任意故障注入工具链
- 状态可靠:任务状态持久化,支持断点续跑
- 实时可视:全链路调测,演练过程透明可控
- 低门槛接入:自然语言下发演练指令,无需编写编排脚本
相关资源:
- openJiuwen 官方网站:https://www.openjiuwen.com?utm_source=csdn
- openJiuwen 代码仓库:https://atomgit.com/openJiuwen?utm_source=CSDN