基于 HiClaw 的运维场景多智能体协同实践

作者:隐寒

从搜索指数看,个人养虾已经降温了,但不会消失,AI 的普及是一个循环向上的过程,不同人群之间会存在较大的温差。

事实上,Claw 已经成为不少个人或团队每天调用模型不可替代的入口,尤其是在一些线上巡检、定时发布的周期性任务上,以及一些团队协作的场景,非常适合多线程工作的人士。

另一边,有了个人养虾的背书,企业养虾开始进入决策期,评估通过企业采购行为设计虾场的应用场景和短中长期的目标,甚至有企业已经将此作为业务创新的牵引力。

以下分享一个我们在 SRE 场景下 Agent Team 的协作实践。

HiClaw 是什么

HiClaw 是一个面向企业的分布式多 Agent 运行平台,核心定位是让多个 Agent 在一个受控、可审计的环境中协同工作,人类全程可见、可介入。

与常见的单进程个人 AI 助手不同,HiClaw 自己不实现 Agent 逻辑,而是编排和管理多个 Agent 容器(Manager 和众多 Workers),这些 Agent 可以运行 OpenClaw 或 CoPaw 作为智能内核,后续还将支持 NanoClaw、ZeroClaw,甚至通过 CLI 方式接入企业自建 Agent。

官方网站hiclaw.io/

"泰山"是我们团队支持阿里云上的云原生产品的 SRE 系统。我们将在此系统上的隔离环境里,部署一套 HiClaw,并应用于我们的运维场景。

构建 HiClaw 组织

HiClaw 初始化之后的状态:

  • 唯一的真人账号: admin。通过对话使唤 manager 干活儿的权利。
  • 唯一的数字人: manager。具备操作操作 HiClaw 所有资源的权限,所有执行都需要通过 Manager;manager 本身就是一个 OpenClaw,内置任务与项目管理、系统管理、worker 管理等 Skills。Manager 默认是 OpenClaw 内核,未来会支持其他智能内核。

组建 Human 团队

与 manager 对话创建 Human 团队:

diff 复制代码
任务:组建一个SRE团队,用于SRE(运维和测试)日常事务的沟通,并创建一个团队管家数字人叫做(sre-bot)
团队组成:团队中包含一个团队管家和n个真人用户
- 团队管家:是一个worker数字人,负责任务分解、成员协调、进度同步,唯一对接 Manager
- 真人用户:都用于 @mention 团队管家的权利,让团队管家做事情的权利。
- 真人账号参考附件来建立,登录账号为工号,名字为可见姓名,密码随机(账户密码请写入到文件中,我需要Matrix中下载)
权限要求:
- 团队管家数字人,响应团队中所有真人账户派发的任务
- manager不响应除了admin之外的真人用户

下发指令之后,Manager 做了这么几件事情:

  • 提取 xlsx 文件中的用户名和工号创建 Matrix 账号。
  • 创建 SRE 数字人管家 sre-bot(选择 CoPaw 作为智能内核)。
  • 创建 SRE 团队。
  • 将 sre-bot 拉入到群中,并邀请 SRE 同事到群中。

以上界面是 HiClaw 内置的的 Matrix 客户端 Element,默认是英文界面,可以改为中文界面。此外,也可以按照 OpenClaw 原生的方式接入钉钉、Discord、飞书等。

Manager 只是邀请了真人员工,真人员工需要登录到系统并接受邀请才代表真正进入了。接受邀请的界面如下。

数字人 Bot 职责设计

scss 复制代码
Human (Admin)
  └─ Manager Agent (唯一入口)
       ├─ Worker A (OpenClaw/CoPaw)
       ├─ Worker B
       └─ Worker C

默认情况下,所有任务必须经由 Manager 分配,所有真人用户必须与 Manager 对话,这在企业场景中存在瓶颈:

  • Manager 成为单点瓶颈,所有指令都需经过它。
  • Worker 之间无法自组织协调。
  • 无法映射企业真实团队结构。

为了解决这个问题,引入了"团队管家"数字人。

css 复制代码
Human (Admin / Human Users)
  └─ Manager Agent (系统管理 + 组织管理)
       ├─ Team A
       │    └─ 团队管家数字 A (Team Leader,任务调度)
       ├─ Team B
       │    └─ 团队管家数字人 B (Team Leader, 任务调度)
       │
       └─ Worker Pool (共享资源池, 按授权分配)
            ├─ Worker 1  ──── 授权 → Team A, Team B
            ├─ Worker 2  ──── 授权 → Team A
            ├─ Worker 3  ──── 授权 → Team B
            └─ Worker 4  ──── 独立 Worker (不属于任何 Team)

数字人 Bot 的职责和分工如下:

Manager 管"系统和组织", Leader 管"任务调度", Worker 管"做出来" 。拆分之后的好处:

  • Manager 的 SOUL 可以做得很轻(管理类指令集),Team Leader 的 SOUL 可以做得很专(领域任务调度)。各自的 prompt 更聚焦,AI 决策质量更高。
  • Admin/Human 的任务请求直接到 Team Leader,不需要绕道 Manager。
  • 不同 Team Leader 可以有不同的领域专长(前端团队、后端团队、测试团队),按业务线组织。
  • Team 内部的调度逻辑可以独立演进,改一个 Team 的策略不影响其他 Team。
  • Manager 挂了只影响系统管理操作(创建/销毁 Worker),已有的 Team 可以继续正常工作。

Human 和数字人权限设计

Admin 管平台,团队负责人管团队,团队员工用团队:

  • 三种数字人: Manager 数字人,团队管家数字人,Worker 数字人。
  • 三种 Human 角色:Admin、团队负责人、团队员工。

admin 通过 @sre-bot 设置团队负责人:

markdown 复制代码
@sre-bot为团队管家;将隐寒设置为团队负责人,其他人为团队员工,相关的权限配置如下,你需要把下面信息写入到你的rule里面,并严格执行:
| 维度 | Admin(系统管理员) | 团队负责人 | 团队员工 |
| --- | --- | --- | --- |
| **定位** | 管平台 | 管团队 | 用团队 |
| **Manager** | ✅ 直接操作 | ❌ | ❌ |
| **创建/销毁 Team** | ✅ | ❌ | ❌ |
| **创建 Worker** | ✅ 全局 | ✅ 自己 Team | ❌ |
| **创建 Human 账号并拉入团队** | ✅ 全局 | ✅ 自己 Team | ❌ |
| **管理团队管家的 SOUL/Skills** | ✅ 所有 Team | ✅ 自己 Team | ❌ |
| **管理 Worker 的 SOUL/Skills** | ✅ 所有 | ✅ 自己 Team 的 | ❌ |
| **与团队管家对话** | ✅ 所有 | ✅ 自己 Team | ✅ 自己 Team |
| **与 Worker 对话** | ✅ 所有 | ✅ 自己 Team 的 | ✅ 自己 Team 的 |
| **创建 Case** | ✅ 任意 | ✅ 自己 Team | ✅ 自己 Team |

至此,群里的 Human 角色都可以 @sre-bot 来下发任务了,但是只有"团队负责人"可以更新 sre-bot 的技能和 soul:

配置好权限之后,如果 sre-bot 不响应,让 manager 重启下 sre-bot worker,否则虽然配置都对,依然不会生效。

创建 SRE Worker 数字人

泰山的 SRE 智能体设计如下:

可能有人会问,为什么设置 5 个数字人,而不是让一个数字人去执行呢?我们先对两个方案做一个对比:

然后我们结合两个场景来看看两个方案的不同:

故障排查场景:生产环境 Pod CrashLoopBackOff

新版发布场景:文档更新 + E2E 验收 + 故障排查

看到这,大家可能有一致的感受,Agent Team 需要花费较多的时间设计数字人的架构,依赖个人经验;从 ROI 角度看,适合周期性任务(一劳永逸)或者复杂、长程任务。

接下来,我们基于以上架构在 HiClaw 中构建所有 SRE Worker 数字人,并构建 Human 和所有人相关的权限;由于每个 Worker 数字人就是一个 Copaw/OpenClaw,因此相关的配置也非常简单:

scss 复制代码
新增5个 worker 数字人:
| 数字人 | 领域 | 能力 | 涵盖 skill |
| --- | --- | --- | --- |
| 泰山 Knowledge Kit | 知识领域 | 通过 knowledge-kit 命令将文档按指定 spec 转换为结构化知识 Markdown。 | knowledge-skill |
| 泰山 QA/E2E 数字人 | 测试域 | 根据用户提供的验收表(xlsx)、目标 URL 和 Cookies(或通过 Argo UI MCP 自动获取),自主生成 Agent 执行指南并不中断地完成全部功能点验收,最终输出含验收结果的验收表。 | agent-prod-e2e-testing |
| 泰山 QA/OpenAPI 数字人 | 测试域 | 自动为阿里云 Java SDK 产品接口生成测试用例,并自动提交代码、创建 Code Review。 | api-resource-classifier, api-test-auto-submit, api-test-generator |
| 泰山运维/泰山咨询和诊断数字人 | 运维域 | 查询实例的详情,k8s 资源等信息;云产品或者实例的咨询或者诊断专家,但是无法做k8s底层的根因诊断。OXS区产品(HSF (Configserver)、Diamond、Vipserver、MetaQ、SchedulerX2.0)的知识答疑,云产品 FAQ、实例诊断,故障诊断、最佳实践咨询等。 | taishan-instance-query, taishan-ticket-skills |
| 泰山运维/K8S RCA 数字人 | 运维域 | Kubernetes 根因分析和诊断专家,通过k8s clusteruuid、pod等信息来进行问题诊断。当用户遇到 K8s 相关问题(Pod 异常如 Pending/CrashLoopBackOff/ImagePullBackOff/Terminating/Evicted、Deployment/StatefulSet/DaemonSet 状态异常、节点 NotReady、服务无法访问、kubectl 报错、容器/调度/网络/存储问题)时,立即使用此 skill。通过 SOP 驱动的方式,遵循「先规划、后执行」原则,使用 5 Whys 方法定位可行动、防复现的根因。 | k8s-rca-skills |

紧接着,admin 让 Manager 赋予 sre-bot 相关权限。

less 复制代码
@manager: 请赋予 sre-bot 创建worker和管理worker的权限,并可以自由分配任务给worker

但是 sre-bot 并不具备创建 worker 的 skill 能力,最终在 Manager 的协作完成任务。

让 sre-bot 将数字人加入群聊。

至此,完成 SRE 的 HiClaw 组织构建,下面开始体验一把。

HiClaw 多智能体的运维场景

我们设定了阿里云 MSE 微服务引擎这款产品,网关变配失败的问题排查场景。

角色: L1/L2 客服,产研。

场景:在 SPE 环境中,预先购买一个 MSE 云原生网关实例,发现 pod 起不来。

真人:发起任务

SRE 团队负责人通过 Team Leader(SI Put)下发诊断指令,触发多智能体协同流程,系统自动创建独立任务空间,隔离上下文,避免干扰其他任务。

SRE 团队管家数字人:分解任务

Team Leader 基于预设 SOP,将"K8s 实例调度失败"问题拆解为三阶段任务:实例状态核查 → 资源瓶颈诊断 → K8s 维度根因分析,并按顺序调度对应 Worker。

SRE 团队管家数字人:拉项目群&下发任务

团队管家数字人在群里,把每个人任务下发给对应的数字人(泰山诊断数字人和 K8s RCA 数字人)。

泰山诊断数字人:实例基础信息获取和实例诊断

泰山诊断数字人调用泰山系统接口,查询目标实例的运行状态,确认其中一个 pod 的状态其处于"Pending",调度失败。

泰山诊断数字人:实例诊断

泰山诊断数字人实例诊断报告,调度失败日志指向"Insufficient CPU/Memory",初步锁定为节点资源不足,且 PVC 无法绑定 PV。

K8s RCA 数字人:K8s 诊断

K8S RC Agent 启动标准诊断流程,发现异常节点(work-a)的 CPU 使用率持续 >95%,内存可用量低于 5%,确认为节点池容量瓶颈,但无法定位具体 Pod 或服务。

按 SOP 依次排查:Pod 调度策略、节点亲和性、Taints/Tolerations、Eviction 阈值,最终确认因节点资源枯竭,K8s 调度器拒绝了新 Pod 的调度请求。

SRE 团队管家数字人:汇总结果

Team Leader 整合三阶段结果,生成结构化报告,明确根因为"work-a 节点池资源不足导致调度失败",并推荐执行"扩容 work-a 节点池+2 节点"操作,附带资源预估与影响评估。

整个流程无需人工干预,智能体串行协作完成端到端诊断,输出可直接交付运维团队的标准化操作方案,实现从问题发现到修复建议的自动化闭环。

总结

个人养虾的热度回落,恰恰说明 AI 智能体正在从尝鲜走向日常。Claw 已经成为许多人和团队每天离不开的工具入口,而企业端也开始认真评估规模化建设虾场的路径。我们在 SRE 场景的实践验证了一个核心判断:智能体的价值不在于单体有多强,而在于能否用平台化的方式让它们协同生长。

从实际收益看,HiClaw 带来的变化是多维度的:

  • 效率层面,大量重复性的巡检、发布、故障响应工作由 Agent 接管,人工介入频次显著下降,部分周期性任务实现了从"人盯"到"人查"的转变。
  • 协作层面,SOUL 和 Skills 作为可复用资产沉淀下来,跨团队共享而非重复建设,新智能体的上线周期从开发级缩短到配置级。
  • 更深层的价值在于业务创新------当构建智能体的门槛降低到业务团队可以自主完成,探索新场景的成本也随之降低,AI 不再是平台团队的专属工具,而成为每个团队都能调用的生产力。

HiClaw 让团队把重心从写代码转向写配置,把核心资产沉淀为 SOUL 与 Skills,把复杂问题交给 Team 而非单个 Agent------不是造更强的智能体,而是造能长出智能体的土壤。这条路,无论个人还是企业,逻辑是相通的。

相关推荐
阿里云云原生4 小时前
从 OpenSearch 到阿里云 SLS:极致弹性、更低成本、生态兼容
云原生
yuanlaile4 小时前
从入门到部署|2026年Koa全栈开发实战:覆盖Node.js、数据库、部署与云架构全链路
微服务·云原生·kubernetes·node.js·serverless·nodejs全栈开发
http阿拉丁神猫5 小时前
kubernetes知识点汇总37-42
云原生·容器·kubernetes
360智汇云6 小时前
在OpenStack使用Ceph纠删码存储
云原生
2301_771717216 小时前
登录生成 Token + 网关解析 Token + 微服务透传 userId
微服务·云原生·架构
恼书:-(空寄6 小时前
K8s 网关(Ingress-Nginx/Envoy/云原生网关)20 个高频故障速查手册
云原生·k8s·ingress
风向决定发型丶19 小时前
K8S CPU绑核详解
云原生·容器·kubernetes
KubeSphere 云原生19 小时前
KubeSphere Skills 正式发布:让 OpenClaw 更懂 KubeSphere
云原生
阿里云云原生21 小时前
Nacos 3.2 Skill Registry 正式版发布,让 AI 能力在企业更安全、可控落地
云原生