本文根据2025云栖大会ODPS分论坛演讲内容整理而成
演讲人:张颖莹 阿里云智能集团算法专家
在云计算与人工智能深度融合的今天,系统的稳定性已不再仅仅是运维团队的责任,而成为企业核心竞争力的重要组成部分。面对动辄数十万服务器、每日运行数千万作业的大规模计算平台,如何实现对潜在风险的主动发现、高效响应与快速恢复?传统依赖人工经验的"救火式"运维模式早已难以为继。
在2025云栖大会的ODPS分论坛上,阿里云智能集团算法专家张颖莹带来了题为《智能哨兵:AI驱动的云平台风险巡检》的主题分享,系统性地介绍了阿里云计算平台在智能化运维领域的最新实践,,一个集异常检测、告警降噪、根因定位于一体的端到端智能运维中枢。
这不仅是对过去十年智能运维探索的技术总结,更是面向未来"自愈型系统"的关键一步。
智能运维的三大挑战:从被动响应到主动防御

作为支撑阿里巴巴集团内外众多核心业务的数据基座,阿里云大数据与AI平台每天承载着MaxCompute的大规模离线计算、Flink的实时流处理、Hologres的交互式分析以及PAI平台的大模型训练与推理任务。
这些能力的背后,是运行在数十万服务器上的复杂分布式系统。其稳定性直接关系到菜鸟物流的包裹追踪、淘宝搜索的推荐精准度、辅助驾驶车辆的安全预警等关键场景。
然而,再强大的系统也无法避免异常的发生。随着系统规模和复杂性的指数级增长,运维面临三大核心挑战:
- 
异常难发现:海量指标与日志中隐藏着微弱但危险的信号,传统的阈值规则难以捕捉周期性、趋势性和分布性变化。 
- 
告警风暴频发:一次故障往往引发连锁反应,导致成百上千条告警同时触发,运维人员陷入"信息过载",难以判断优先级。 
- 
根因定位困难:问题表象可能出现在应用层,但根源却深埋于存储、调度或网络模块之中,排查过程耗时耗力。 
为应对这些挑战,阿里云计算平台运维团队构建了"智能哨兵"(Smart Sentinel)AI驱动风险巡检体系,致力于打造一个能够"看得见、判得清、跟得上"的智能运维大脑。
构建多层次异常检测体系,实现全面风险感知
要实现对系统风险的主动防控,首要任务是从海量信号中精准捕捉异常。一个拥有数万甚至数十万台服务器的计算平台,就像一个高度复杂的神经系统,每时每刻都在产生和传递大量数据。要在这样的环境中识别出微弱但危险的波动,仅靠单一规则或模型难以胜任。因此,"智能哨兵"构建了一套覆盖指标、日志与作业分布特征的多层次检测体系,确保各类异常无处遁形。  在单指标异常检测方面,系统面临的核心难题是业务指标具有多重周期性和动态变化特性。例如,日常使用存在早晚高峰,每周呈现周期规律,在大促或节假日还会出现突变。若采用静态阈值监控,极易造成误报或漏报。为此,团队自主研发了一套基于周期识别与分解的异常检测算法。该算法能够将时间序列中的趋势项、周期成分与噪声逐层剥离,从而更加灵敏地识别出不应出现的波动。这种机制如同听清了系统的正常呼吸节奏,一旦出现"咳嗽",便能立即察觉。相关研究成果已发表于SIGMOD会议。
 在单指标异常检测方面,系统面临的核心难题是业务指标具有多重周期性和动态变化特性。例如,日常使用存在早晚高峰,每周呈现周期规律,在大促或节假日还会出现突变。若采用静态阈值监控,极易造成误报或漏报。为此,团队自主研发了一套基于周期识别与分解的异常检测算法。该算法能够将时间序列中的趋势项、周期成分与噪声逐层剥离,从而更加灵敏地识别出不应出现的波动。这种机制如同听清了系统的正常呼吸节奏,一旦出现"咳嗽",便能立即察觉。相关研究成果已发表于SIGMOD会议。
在多指标协同分析层面,许多风险并非表现为某个单一指标的剧烈变动,而是多个指标之间关系的偏离。为此,"智能哨兵"引入深度学习重构模型,用于学习系统在正常状态下各指标之间的关联模式。当实际观测值显著偏离模型预测结果时,即使所有单项指标仍在合理范围内,系统也会判定整体状态已进入亚健康。这种对关联性的建模能力,极大提升了对隐蔽性问题的发现效率。
此外,针对平台上每日运行的数百万乃至上千万个作业,传统逐个监控的方式成本高昂且易受个别作业扰动影响。"智能哨兵"转而采用全局视角,将所有作业的运行时长、资源消耗等关键参数描绘成一幅动态画像。在系统正常运行时,这幅画像保持相对稳定;一旦批量作业出现性能劣化,整体分布形态会发生扭曲。团队自研的异常检测算法能够准确识别此类分布变化,从而更早感知系统级风险。该项技术的相关研究《Cluster-Wide Task Slowdown Detection in Cloud System》已被KDD录用。 
除了结构化指标外,日志作为另一类重要可观测数据,也纳入了检测体系。由于日志体量庞大、格式杂乱,以往主要依靠关键词过滤的方式进行监控,不仅维护成本高,而且只能发现已知问题。为了突破这一局限,"智能哨兵"构建了一套基于Flink的实时日志聚类系统。该系统包含两个核心模块:首先是结构化解析,通过定期抽样历史日志,统计分词频率,自动识别高频变量并生成解析规则,再利用轻量级日志解析算法对日志文本进行结构拆解,形成标准化的日志模板;其次是语义化聚类,将生成的模板进行向量化处理,并结合实时层次聚类算法与局部敏感哈希策略提升比对效率,使得语义相近但文本不同的日志也能被归为一类。
当新日志到来时,系统可即时判断其归属于已有类别还是属于新增模式,同时监测各类别的数量变化,识别"新增日志模式"或"已有模式暴增"的异常情况。整个流程依托高性能流水线实现边来边处理,大幅提升了日志异常的发现效率。
智能告警分级与根因定位,提升处置决策质量
异常检测只是起点,面对由此产生的海量告警,如何帮助运维人员聚焦真正关键的问题,才是智能运维的价值所在。"智能哨兵"构建了一个融合大模型与专家知识的智能决策中枢,涵盖异常理解、告警降噪与根因定位全流程。
在异常理解阶段,系统将检测出的异常曲线输入至一个经过微调的时序大模型,将其转化为自然语言描述。这一过程将原本冷冰冰的数字和算法输出,转换为人类易于理解的语言表达,也为后续大模型参与决策提供了基础接口。  在告警降噪环节,系统从多个维度综合评估每一条异常信息:包括异常的严重程度、持续时间、是否集中在某一服务或用户群体,以及该类型异常是否为历史上首次出现。所有线索交由一个定界Agent进行综合研判。这个Agent的设计理念源自经验丰富的运维专家,具备自主调用工具链的能力。例如,当发现顶层KPI异常时,它会结合系统拓扑关系向下钻取,精确圈定受影响的服务范围;当发现某类日志模式异常时,它会自动匹配知识库中的专家经验,判断是否为已知的平台级问题。最终,系统依据影响面大小和问题性质,将告警划分为不同等级:需立即处置、可延后处置、无需关注。经过这一过程,有效减少了无效告警对运维注意力的干扰。
 在告警降噪环节,系统从多个维度综合评估每一条异常信息:包括异常的严重程度、持续时间、是否集中在某一服务或用户群体,以及该类型异常是否为历史上首次出现。所有线索交由一个定界Agent进行综合研判。这个Agent的设计理念源自经验丰富的运维专家,具备自主调用工具链的能力。例如,当发现顶层KPI异常时,它会结合系统拓扑关系向下钻取,精确圈定受影响的服务范围;当发现某类日志模式异常时,它会自动匹配知识库中的专家经验,判断是否为已知的平台级问题。最终,系统依据影响面大小和问题性质,将告警划分为不同等级:需立即处置、可延后处置、无需关注。经过这一过程,有效减少了无效告警对运维注意力的干扰。
为进一步提升异常处置效率,在根因定位阶段,"智能哨兵"引入了一个多Agent协同定位框架。主Agent负责统筹协调,多个子Agent则按照系统模块分工协作,分别负责存储模块、调度模块、Tunnel模块及其他关键组件的检查任务。每个子Agent独立分析其所辖模块是否存在异常,最终由主Agent汇总结论,并将推理过程和关键依据实时回填至异常处置工单中,供运维人员参考。
在整个Agent构建过程中,团队采用了多项关键技术策略以增强其可靠性。一是引入ReAct框架,使大模型具备先思考再行动的能力;二是加入记忆增强机制,确保其遵循标准操作流程生成专业化的排查步骤;三是设计反思机制,使其在推理过程中能够自我修正,动态调整策略。这些机制共同保障了推理结果的专业性与可信度。
端到端闭环落地,打造智能响应中枢
为了让智能能力真正落地,"智能哨兵"打通了从异常发生到恢复完成的完整闭环,形成标准化的异常处置平台。  "智能哨兵"不是一个简单的告警展示看板,而是一个贯穿异常发现、分析、定级到处置全过程的智能响应中枢。对于每一个需要处理的异常,系统会通过钉钉推送一张卡片通知,卡片颜色直观反映问题的紧急程度。运维人员点击卡片即可跳转至异常工单处置平台,查看完整的上下文信息。
 "智能哨兵"不是一个简单的告警展示看板,而是一个贯穿异常发现、分析、定级到处置全过程的智能响应中枢。对于每一个需要处理的异常,系统会通过钉钉推送一张卡片通知,卡片颜色直观反映问题的紧急程度。运维人员点击卡片即可跳转至异常工单处置平台,查看完整的上下文信息。
工单页面包含四个关键模块。在"异常现场"部分,展示具体发生异常的指标曲线和日志记录,还原第一手现场数据;在"定界定级"部分,清晰呈现本次问题的影响范围和服务层级,明确责任边界;在"根因定位"部分,可视化展示各子Agent的协同推理路径及其依据,提升排查透明度;在"快速恢复"部分,系统参考历史上的相似工单,为当前问题推荐合理的应急预案,辅助运维人员高效执行。
整个流程实现了从异常发生到开单、定界分级、问题定位再到恢复完成的全生命周期管理,让运维工作从被动响应转变为有序协同的标准化流程。
回望与展望:从规则驱动到AI自治
回顾过去十年,阿里云智能运维经历了从规则驱动,到统计模型与机器学习驱动,再到如今大语言模型深度参与决策的演进历程。每一次技术革新,都在重新定义"智能"的边界。
"智能哨兵"的建成,不仅是对多年技术积累的总结,更是对未来系统自治能力的探索起点。它标志着运维体系正从"被动救火"走向"主动防控",并逐步向"自愈系统"迈进。