云栖实录｜智能哨兵：AI驱动的云平台风险巡检

本文根据2025云栖大会ODPS分论坛演讲内容整理而成

演讲人：张颖莹阿里云智能集团算法专家

在云计算与人工智能深度融合的今天，系统的稳定性已不再仅仅是运维团队的责任，而成为企业核心竞争力的重要组成部分。面对动辄数十万服务器、每日运行数千万作业的大规模计算平台，如何实现对潜在风险的主动发现、高效响应与快速恢复？传统依赖人工经验的"救火式"运维模式早已难以为继。

在2025云栖大会的ODPS分论坛上，阿里云智能集团算法专家张颖莹带来了题为《智能哨兵：AI驱动的云平台风险巡检》的主题分享，系统性地介绍了阿里云计算平台在智能化运维领域的最新实践，，一个集异常检测、告警降噪、根因定位于一体的端到端智能运维中枢。

这不仅是对过去十年智能运维探索的技术总结，更是面向未来"自愈型系统"的关键一步。

智能运维的三大挑战：从被动响应到主动防御

作为支撑阿里巴巴集团内外众多核心业务的数据基座，阿里云大数据与AI平台每天承载着MaxCompute的大规模离线计算、Flink的实时流处理、Hologres的交互式分析以及PAI平台的大模型训练与推理任务。

这些能力的背后，是运行在数十万服务器上的复杂分布式系统。其稳定性直接关系到菜鸟物流的包裹追踪、淘宝搜索的推荐精准度、辅助驾驶车辆的安全预警等关键场景。

然而，再强大的系统也无法避免异常的发生。随着系统规模和复杂性的指数级增长，运维面临三大核心挑战：

异常难发现：海量指标与日志中隐藏着微弱但危险的信号，传统的阈值规则难以捕捉周期性、趋势性和分布性变化。
告警风暴频发：一次故障往往引发连锁反应，导致成百上千条告警同时触发，运维人员陷入"信息过载"，难以判断优先级。
根因定位困难：问题表象可能出现在应用层，但根源却深埋于存储、调度或网络模块之中，排查过程耗时耗力。

为应对这些挑战，阿里云计算平台运维团队构建了"智能哨兵"（Smart Sentinel）AI驱动风险巡检体系，致力于打造一个能够"看得见、判得清、跟得上"的智能运维大脑。

构建多层次异常检测体系，实现全面风险感知

要实现对系统风险的主动防控，首要任务是从海量信号中精准捕捉异常。一个拥有数万甚至数十万台服务器的计算平台，就像一个高度复杂的神经系统，每时每刻都在产生和传递大量数据。要在这样的环境中识别出微弱但危险的波动，仅靠单一规则或模型难以胜任。因此，"智能哨兵"构建了一套覆盖指标、日志与作业分布特征的多层次检测体系，确保各类异常无处遁形。在单指标异常检测方面，系统面临的核心难题是业务指标具有多重周期性和动态变化特性。例如，日常使用存在早晚高峰，每周呈现周期规律，在大促或节假日还会出现突变。若采用静态阈值监控，极易造成误报或漏报。为此，团队自主研发了一套基于周期识别与分解的异常检测算法。该算法能够将时间序列中的趋势项、周期成分与噪声逐层剥离，从而更加灵敏地识别出不应出现的波动。这种机制如同听清了系统的正常呼吸节奏，一旦出现"咳嗽"，便能立即察觉。相关研究成果已发表于SIGMOD会议。

在多指标协同分析层面，许多风险并非表现为某个单一指标的剧烈变动，而是多个指标之间关系的偏离。为此，"智能哨兵"引入深度学习重构模型，用于学习系统在正常状态下各指标之间的关联模式。当实际观测值显著偏离模型预测结果时，即使所有单项指标仍在合理范围内，系统也会判定整体状态已进入亚健康。这种对关联性的建模能力，极大提升了对隐蔽性问题的发现效率。

此外，针对平台上每日运行的数百万乃至上千万个作业，传统逐个监控的方式成本高昂且易受个别作业扰动影响。"智能哨兵"转而采用全局视角，将所有作业的运行时长、资源消耗等关键参数描绘成一幅动态画像。在系统正常运行时，这幅画像保持相对稳定；一旦批量作业出现性能劣化，整体分布形态会发生扭曲。团队自研的异常检测算法能够准确识别此类分布变化，从而更早感知系统级风险。该项技术的相关研究《Cluster-Wide Task Slowdown Detection in Cloud System》已被KDD录用。

除了结构化指标外，日志作为另一类重要可观测数据，也纳入了检测体系。由于日志体量庞大、格式杂乱，以往主要依靠关键词过滤的方式进行监控，不仅维护成本高，而且只能发现已知问题。为了突破这一局限，"智能哨兵"构建了一套基于Flink的实时日志聚类系统。该系统包含两个核心模块：首先是结构化解析，通过定期抽样历史日志，统计分词频率，自动识别高频变量并生成解析规则，再利用轻量级日志解析算法对日志文本进行结构拆解，形成标准化的日志模板；其次是语义化聚类，将生成的模板进行向量化处理，并结合实时层次聚类算法与局部敏感哈希策略提升比对效率，使得语义相近但文本不同的日志也能被归为一类。

当新日志到来时，系统可即时判断其归属于已有类别还是属于新增模式，同时监测各类别的数量变化，识别"新增日志模式"或"已有模式暴增"的异常情况。整个流程依托高性能流水线实现边来边处理，大幅提升了日志异常的发现效率。

智能告警分级与根因定位，提升处置决策质量

异常检测只是起点，面对由此产生的海量告警，如何帮助运维人员聚焦真正关键的问题，才是智能运维的价值所在。"智能哨兵"构建了一个融合大模型与专家知识的智能决策中枢，涵盖异常理解、告警降噪与根因定位全流程。

在异常理解阶段，系统将检测出的异常曲线输入至一个经过微调的时序大模型，将其转化为自然语言描述。这一过程将原本冷冰冰的数字和算法输出，转换为人类易于理解的语言表达，也为后续大模型参与决策提供了基础接口。在告警降噪环节，系统从多个维度综合评估每一条异常信息：包括异常的严重程度、持续时间、是否集中在某一服务或用户群体，以及该类型异常是否为历史上首次出现。所有线索交由一个定界Agent进行综合研判。这个Agent的设计理念源自经验丰富的运维专家，具备自主调用工具链的能力。例如，当发现顶层KPI异常时，它会结合系统拓扑关系向下钻取，精确圈定受影响的服务范围；当发现某类日志模式异常时，它会自动匹配知识库中的专家经验，判断是否为已知的平台级问题。最终，系统依据影响面大小和问题性质，将告警划分为不同等级：需立即处置、可延后处置、无需关注。经过这一过程，有效减少了无效告警对运维注意力的干扰。

为进一步提升异常处置效率，在根因定位阶段，"智能哨兵"引入了一个多Agent协同定位框架。主Agent负责统筹协调，多个子Agent则按照系统模块分工协作，分别负责存储模块、调度模块、Tunnel模块及其他关键组件的检查任务。每个子Agent独立分析其所辖模块是否存在异常，最终由主Agent汇总结论，并将推理过程和关键依据实时回填至异常处置工单中，供运维人员参考。

在整个Agent构建过程中，团队采用了多项关键技术策略以增强其可靠性。一是引入ReAct框架，使大模型具备先思考再行动的能力；二是加入记忆增强机制，确保其遵循标准操作流程生成专业化的排查步骤；三是设计反思机制，使其在推理过程中能够自我修正，动态调整策略。这些机制共同保障了推理结果的专业性与可信度。

端到端闭环落地，打造智能响应中枢

为了让智能能力真正落地，"智能哨兵"打通了从异常发生到恢复完成的完整闭环，形成标准化的异常处置平台。 "智能哨兵"不是一个简单的告警展示看板，而是一个贯穿异常发现、分析、定级到处置全过程的智能响应中枢。对于每一个需要处理的异常，系统会通过钉钉推送一张卡片通知，卡片颜色直观反映问题的紧急程度。运维人员点击卡片即可跳转至异常工单处置平台，查看完整的上下文信息。

工单页面包含四个关键模块。在"异常现场"部分，展示具体发生异常的指标曲线和日志记录，还原第一手现场数据；在"定界定级"部分，清晰呈现本次问题的影响范围和服务层级，明确责任边界；在"根因定位"部分，可视化展示各子Agent的协同推理路径及其依据，提升排查透明度；在"快速恢复"部分，系统参考历史上的相似工单，为当前问题推荐合理的应急预案，辅助运维人员高效执行。

整个流程实现了从异常发生到开单、定界分级、问题定位再到恢复完成的全生命周期管理，让运维工作从被动响应转变为有序协同的标准化流程。

回望与展望：从规则驱动到AI自治

回顾过去十年，阿里云智能运维经历了从规则驱动，到统计模型与机器学习驱动，再到如今大语言模型深度参与决策的演进历程。每一次技术革新，都在重新定义"智能"的边界。

"智能哨兵"的建成，不仅是对多年技术积累的总结，更是对未来系统自治能力的探索起点。它标志着运维体系正从"被动救火"走向"主动防控"，并逐步向"自愈系统"迈进。