5 月 20 日,阿里云正式发布 AI 原生全域智能运维平台 STAROps。
该平台以大模型与智能体技术为核心引擎,以阿里云可观测产品体系为数据底座,将跨域可观测数据与大语言模型推理能力深度融合,用户只需以自然语言定义运维目标,运维智能体即可自主完成动态规划、安全执行与结果验证的全闭环。

STAROps 围绕 Sense 全域感知、Target 目标导向、Autonomy 自主运维、Resilience 业务韧性四大能力维度设计,提供三大核心功能:
- 智能助手将自然语言直接转化为跨域观测数据的统一查询与诊断结果,告警分析、指标解读、日志诊断在一个对话窗口内完成,无需多平台切换;
- 长期任务机制让 Agent 接管巡检、告警分析、周期报告等高频重复工作,一次目标对齐即可自主执行跨天乃至跨月级异步运维计划;
- 数字员工让企业为每个团队构建专属 SRE 智能体,自定义职责、权限与工具集,将专家经验一次性固化为角色规则。
在技术架构层面,STAROps 的竞争力体现在四个维度,让 Agentic Ops 落地生产级运维环境。
统一可观测数据
整合日志/指标/链路/事件/拓扑/变更等跨域数据统一存储,提供 PB 级日写入、EB 级存储、千亿数据秒级分析的低延迟、多可用区部署等能力(可靠性 99.99%)。
运维数字孪生
基于实体、关系、观测数据和运维知识构建统一图模型(UModel),结构化应用、服务、资源、告警和变更关系,让 Agent 在同一上下文中理解系统、追踪影响并推理根因。
AI 分析算子
沉淀异常检测、日志聚类、链路分析、性能剖析、变更回溯等通用分析能力,减少大模型直接处理海量原始数据的成本,提升问题分析、诊断效率和结果稳定性。
持续进化飞轮
构建贴近真实场景的仿真、故障注入、诊断评估和反馈闭环,基于线上和线下的全链路评估体系,持续优化效果,形成可评估、可回滚、可进化的智能体迭代体系。

云计算的本质就是以高效方式将计算机资源编排为服务,STAROps 所做的正是将这一原则延伸到运维领域。通过 Agent 对运维操作的规模化编排调度,实现人力密集型运维工作的智能化。STAROps 的数字员工机制恰恰为企业提供了这种渐进式路径:既支持在现有流程中嵌入 AI 提效,也支持构建全新的 Agent 原生运维模式。
在接入形态上,STAROps 提供 OpenAPI 与 MCP 集成、页面内嵌、主流 IM 接入等多种接入方案,企业可以最低迁移成本在现有工作流中释放价值。平台内置的人工审批机制确保关键决策节点仍由人工把控,在 Agent 自主执行效率与安全合规之间取得平衡。
伴随产品发布,阿里云同步开源 UModel 与 RCA-100 评测基准集 ,并联合信通院、小鹏汽车、中科院软件所等 10 逾家行业伙伴与学术机构共同发起《企业通用语义标准行业倡议》。

目前,STAROps 已在阿里云官网正式上线。当 AI 重塑软件研发的每一个环节,运维作为保障业务韧性的最后防线,正迎来从工具辅助到 Agent 自治的范式跃迁。阿里云以 STAROps 为起点,将 Agentic Ops 从概念推向生产级落地。