研发域与运维域的“数字握手”:通过 Agentic Skills 实现 DevOps 全链路自动化

6 月 25 日,阿里云飞天发布时刻发布阿里云 Skills 官网,以 Agent 为新的操作主体,重构云能力的统一调用入口。

阿里云可观测体系作为阿里云核心服务之一,在 Agent 友好化方向上率先迈出关键一步。阿里云将云监控 CMS、日志服务 SLS、应用实时监控服务 ARMS、全域智能运维平台 STAROps 的核心能力封装为 Agentic Skills,让 Agent 可以直接调用可观测能力。本次发布会上,云监控 Skills、STAROps Skills 作为首批 Agentic Skills 正式上线。

开发者在 Qoder 等 Agent 客户端中发出一句自然语言指令,Agent 即可自主完成数据接入、告警配置、根因诊断,并联动研发工具链完成代码修复与发布。

首批发布:基于 Skill 的全栈可观测与智能诊断

本次发布会上,阿里云智能高级技术专家张城重点演示了云监控 Skills 和 STAROps Skills 驱动的全域可观测与智能诊断实践:

  • 云监控 Skills: 把告警配置、数据接入等高频运维动作封装为 Agent 可直接调用的标准指令。云监控支持上百种云产品,以及移动端、小程序、多语言应用、大模型、Agent 等多端全栈场景的数据接入,Skills 让这些能力以自然语言方式被调用。
  • STAROps Skills: 把健康度诊断与根因定位能力开放给 Agent 客户端调用,支持持续对话与多轮追问。

这套 Skills 体系为企业提供了一条从存量监控体系平滑过渡到 Agentic Ops 的路径,既支持在现有工作流中嵌入 AI 提效,也支持企业为关键业务构建 Agent 原生的诊断模式:

  • 全栈数据覆盖: 云监控一站式接入云产品、移动端、小程序、多语言应用、大模型、Agent 等全栈对象的指标、链路、日志、事件数据。
  • 运维数字孪生: UModel 对采集到的数据做语义化建模,对各类 IT 资源、业务资源进行本体化建模,打通跨域对象。
  • 智能诊断与运维: STAROps 基于大模型完成多维数据分析、告警实时诊断与根因推理,给出可追溯到代码变更的根因结论,并提供恢复建议。
  • Agent 友好: STAROps 提供适合大模型调用的 API 与 CLI;Skills 内置参数 Schema 与多重校验逻辑,确保 Agent 生成的配置项字段合理,避免误配。

应用实战:AI Native DevOps 全链路闭环

Qoder 作为研发侧统一入口,调用云监控 Skills、STAROps Skills 与云效 MCP,UModel 实现研发域与运维域的跨层数据打通。基于这套架构,编码→发布→告警→诊断→修复形成全链路闭环:

  • 编码:开发者在 Qoder 中编写代码。
  • 发布:Qoder 通过云效 MCP 触发云效平台的代码提交、流水线构建与镜像产出,镜像推送至容器镜像服务,由容器服务(K8s 集群)拉起客户应用。
  • 告警:云监控 Skills 为应用、容器、镜像配置数据接入与告警规则,线上异常即时触发。
  • 诊断:告警触发后,Qoder 调用 STAROps Skills,借助 UModel 的跨域关联,从指标异动追溯到 Deployment 变更、再回到具体的代码发布与提交人,给出结构化根因。
  • 修复:Qoder 直接生成修复代码,通过云效 MCP 在 Codeup 上发起 Pull Request(合并请求),自动附带问题背景与根因分析,进入 Review。

最佳实践:从告警配置到问题修复

告警配置: 告警配置是开发者高频重复的运维操作之一。云监控 Skills 可在 Qoder 等 Agent 客户端通过一条命令完成安装。在 Qoder 中下达"为这个集群配置 CPU 告警"的指令,Agent 会基于 Skills 自动拆解为告警规则配置、Webhook 通知设置等子任务,由 Skills 内置的 Schema 与校验逻辑保障字段配置的合法性。

点击此处,查看视频:mp.weixin.qq.com/s/hMtxbnk8J...

告警诊断: 当线上告警触发时,开发者可将告警信息直接输入 Qoder,结合 STAROps Skills 快速完成根因诊断,给出初步的根因判断。由于 STAROps 具备 Agent 原生的交互能力,可继续追问"这次问题由哪次发布引起"。因为接入了云效 DevOps 数据,Agent 能诊断出具体哪次发布引入了问题、关联的流水线执行情况、发布时间与监控指标变化的关联性,最终给出综合性的根因结论。

代码修复: 当所有现象和根因都已明确后,Qoder 直接修复相关代码,通过云效 MCP 在 Codeup 上发起 Pull Request;请求中自动附带问题背景、根因分析与修复说明。

点击此处,查看视频:mp.weixin.qq.com/s/hMtxbnk8J...

云监控 Skills、STAROps Skills 现已上线阿里云 Skills 官网,可在 Qoder 等 Agent 客户端一键安装。通过将监控、诊断、研发工具链以 Skills 和 MCP 的形式开放给 AI Agent,阿里云让"告警 - 定位 - 修复 - 发布"这条原本需要多人协作、跨平台操作的链路,可以在同一个 Agent 对话界面中端到端完成,全面提升了运维效率,让研发和运维之间的协作更加顺畅、智能。

立即体验: skills.aliyun.com/skills?cate...

相关推荐
阿里云云原生4 天前
AI 开发新常态:当 Cursor、Claude、Codex 并行,如何统一管理散落的 Skill 资产?
云原生·ai编程
探索云原生4 天前
K8s 1.36 这个 GA 特性,把 initContainer 拉模型的 hack 干掉了
ai·云原生·kubernetes
Java之美4 天前
从edge-trigger到level-trigger,谈谈 Kubernetes controller 的开发范式
云原生
阿里云云原生5 天前
深度解构:当 Append-only 的 SLS 遇上 Update/Delete,是如何实现设计权衡的?
云原生
Java之美5 天前
一次k8s升级引发的DevicePlugin注册失败
云原生·kubernetes
秋播5 天前
nerdctl推送rancher本地镜像到harbor
云原生
阿里云云原生6 天前
告别冗长链路!Kafka × Table Bucket 实现开放表格式零 ETL 实时入湖
云原生·kafka
SelectDB7 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
秋播9 天前
国内本地WSL2编译rancher源码
云原生