RCAgent，基于LLM自主智能体的云平台根因分析实践与探索

在云计算技术飞速普及的今天，各类企业纷纷将核心业务迁移至云平台，云服务的稳定性与可靠性直接决定了业务连续性与用户体验。然而，云环境的复杂性与动态性使得服务异常频发，根因分析（RCA）作为保障云平台可靠性的关键环节，面临着前所未有的挑战。传统智能运维（AIOps）方法虽在一定程度上实现了诊断自动化，但受限于数据质量参差不齐、标注成本居高不下以及模型泛化能力不足等问题，难以满足工业级云平台的运维需求。

近年来，大语言模型（LLM）凭借其强大的泛化能力与逻辑推理能力，在各领域展现出巨大应用潜力。部分研究尝试通过微调GPT模型适配云系统任务，却陷入了监督式学习计算成本高昂的困境，未能充分释放LLM的核心优势。而LLM智能体在AIOps领域的应用更是处于起步阶段，面对云环境中噪声繁多、数据冗长的问题，往往难以有效开展根因分析工作。

针对上述行业痛点，阿里云团队提出了RCAgent，首个基于LLM的工具增强型自主智能体范式，专为隐私敏感的真实世界云平台根因分析设计。该框架通过创新的"思考-行动-观察"决策循环与多重增强机制，在根因预测、解决方案生成、证据提取及责任归属判定等核心任务中，均展现出显著且稳定的优越性，其性能已通过自动化指标与人工评估双重验证。目前，RCAgent的分析结果已成功应用于阿里云Apache Flink实时计算平台，有效诊断出传统方法未能发现的异常流处理作业，为工业级云运维提供了全新的解决方案。

一、RCAgent核心框架设计：双智能体协同的决策体系

RCAgent作为专为工业级云根因分析打造的LLM工具增强型自主智能体框架，其核心设计理念是模拟人类站点可靠性工程师（SRE）的故障诊断流程，通过双智能体协同工作，实现高效、精准的根因分析。框架整体采用"思考-行动-观察"的决策循环模式，同时引入控制器智能体与专家智能体两类角色，分工协作完成从数据收集到结果输出的全流程任务。

控制器智能体作为框架的核心协调者，遵循ReAct提示框架构建，主要负责统筹任务流程，制定分析策略并调用各类工具。其内部集成了三大核心模块：循环规则模块用于定义"思考-行动-观察"循环的具体执行逻辑，明确智能体的决策边界与流程规范；任务指令模块包含云平台基础知识与根因分析任务要求，为智能体提供清晰的任务导向；工具文档模块则详细描述所有可调用工具的功能、参数及使用场景，助力智能体精准选择工具完成任务。

专家智能体则作为领域专用工具存在，核心作用是为控制器智能体提供专业的技术知识支持，弥补LLM在特定领域知识储备不足的短板。与传统工具不同，RCAgent中的专家智能体均基于LLM构建，具备强大的语义理解与逻辑推理能力，能够针对具体分析场景输出专业、精准的分析结果，成为控制器智能体开展根因分析的重要助力。

为提升框架的实用性与兼容性，RCAgent采用JSON作为统一的数据交换格式，确保不同模块与工具间的数据传输高效、规范。同时，框架特意设计了"finalize"工具，允许模型在完成分析后自主决定输出结果，无需人工干预，真正实现了根因分析的自动化闭环。考虑到上下文长度限制，框架并未沿用ReAct原有的少样本示例，而是通过优化提示词设计，在减少令牌消耗的同时，保证智能体能够准确理解任务需求。

针对云平台根因分析中LLM工具增强型智能体面临的核心挑战，RCAgent在基础框架之上进行了四项关键增强设计：通过观察管理机制压缩令牌使用，有效缓解上下文长度限制；构建专用工具集融合LLM增强工具，弥补领域知识缺口；实施稳定性优化策略提升操作有效性；通过自洽性聚合优化，增强本地部署LLM的性能表现。这四项增强机制相互配合，共同构建了高效、稳定、精准的根因分析体系。

二、关键增强机制：破解云根因分析的核心难题

2.1 观察快照键（OBSK）：突破上下文长度限制

在复杂的云环境中构建自主智能体时，上下文长度限制是亟待解决的核心挑战。智能体的动作轨迹中包含大量观察内容，如日志数据、表格信息等，这些内容往往占用大量令牌空间，导致上下文长度超标。传统的信息截断或摘要方法虽然能够缩短上下文长度，但极易造成关键信息丢失，影响智能体的决策准确性。

为应对这一问题，RCAgent创新性地提出了观察快照键（OBSK，Observation Snapshot Key）机制，专门用于解决真实云任务中的上下文约束问题。该机制的核心思路是对观察信息进行分层展示与存储，在控制器智能体的决策过程中，仅向其展示观测信息的头部内容，同时为完整观测信息生成一个唯一的哈希ID，即快照键，并将该快照键与完整信息对应存储在键值存储系统中。

当RCAgent解析动作轨迹时，一旦识别到快照键，便会自动通过键值存储系统查询并获取对应的完整观测信息。这种设计既有效控制了提示词长度，减少了令牌消耗，又确保控制器智能体在需要时能够获取完整的观察数据，为决策提供全面支持。与传统方法相比，OBSK机制实现了上下文长度与信息完整性的平衡，避免了因信息丢失导致的根因分析偏差，显著提升了智能体在复杂云环境中的适应能力。

2.2 工具集设计：模拟人类SRE的故障诊断流程

为让RCAgent能够精准模拟人类SRE的故障诊断流程，框架设计了两类核心工具：信息收集工具与分析工具（即专家智能体），分别对应故障诊断中的数据获取与深度解析环节，二者协同工作，提升根因分析的效率与准确性。

信息收集工具的核心目标是简化数据获取过程，降低智能体的操作门槛。在云平台中，各类监控数据、日志信息分散存储在不同的数据库与文件系统中，获取这些数据需要调用复杂的查询接口，如SQL语句、日志API等。信息收集工具通过封装底层查询接口，将复杂的技术细节隐藏起来，仅向LLM暴露简单的语义参数，如实体ID、时间范围等，使智能体能够快速定位并获取所需数据，避免在庞大的数据仓库中进行无效探索。

此外，信息收集工具还具备数据预处理能力，能够对获取到的相似信息进行去重处理，同时过滤掉警告级别以下的无关消息，减少噪声数据对根因分析的干扰。通过数据预处理，工具向智能体输出的信息更加精炼、精准，有效提升了智能体的决策效率，缩短了根因分析周期。

分析工具作为RCAgent的核心分析组件，主要用于扩展控制器智能体的领域知识与推理能力，其本质是基于LLM构建的专家智能体。RCAgent针对云平台根因分析的核心场景，配备了两类专家智能体：代码分析工具与日志分析工具，二者均采用零样本思维链（CoT）生成分析结果，能够在无标注数据的情况下，精准提取关键信息，为根因分析提供有力支持。

代码分析工具采用递归式工作流程，能够深度解析云平台中的代码逻辑，定位潜在的代码缺陷。当获取到具体的类名后，工具会在代码库中快速定位对应的文件，由LLM对该文件进行分析，并推荐与当前问题相关的其他类，将推荐任务存入队列中依次处理。这种递归分析过程持续进行，直至无更多内部推荐或仅剩外部依赖为止。最后，LLM会对所有涉及的代码进行综合总结，提炼出可能导致故障的代码问题，作为观察结果返回给控制器智能体。

日志分析工具则采用改进的RAG（检索增强生成）范式，专门用于处理冗长、杂乱的日志数据。该工具首先将日志按行分割，基于嵌入向量与距离衰减的余弦相似度构建加权无向图，然后通过Louvain社区检测算法对日志进行语义聚类，再利用贪心算法去除聚类后的重叠内容，形成结构清晰的日志块。每个日志块都会被送入LLM进行RAG分析，为确保分析结果的真实性，工具要求智能体直接引用日志内容作为证据，若输出的证据无法与原始日志块模糊匹配，则直接丢弃该结果，有效杜绝了LLM生成幻觉的问题。

2.3 可靠性增强：提升智能体操作稳定性

在真实的云平台环境中，噪声数据繁多且本地部署的LLM能力存在局限，容易导致智能体操作失效、输出结果异常等问题，影响根因分析的稳定性。为应对这一挑战，RCAgent引入了两项核心的稳定性保障机制：JSON修复与错误处理，有效提升了智能体的操作有效性与故障容错能力。

JSON作为框架统一的数据交换格式，其解析准确性直接影响智能体的正常工作。然而，云环境中的数据往往存在敏感字符、格式不规范等问题，容易导致JSON解析失败。为此，RCAgent提出了JsonRegen修复方法，通过两步修复流程确保JSON数据的可解析性。第一步，在LLM推理前，自动替换JSON中的敏感字符，生成格式清晰的提示词；若经过初步清理后，JSON仍无法解析，则启动第二步再生流程，指示LLM先将内容转换为YAML格式，再依据相同的结构与内容重新生成JSON。这一修复过程可迭代执行，直至获得有效、可解析的JSON数据，确保数据交换的顺畅进行。

错误处理机制则通过预先定义常见错误类型，并向智能体反馈问题状态与优化建议，减少无意义操作，提升根因分析的效率。RCAgent重点针对三类典型错误进行处理：一是重复调用无状态工具且参数相同，这种操作不仅浪费计算资源，还会延长分析周期，系统会及时提醒智能体避免重复调用；二是向专家智能体输入无关内容，导致专家智能体输出无效结果，系统会引导智能体筛选关键信息，精准输入；三是未充分调查便过早结束分析，导致根因分析不全面、不准确，系统会提示智能体完善调查流程，确保分析结果的可靠性。通过错误处理机制，RCAgent能够有效规避常见问题，提升智能体的操作稳定性与分析质量。

2.4 自洽性聚合：增强本地LLM的分析性能

自洽性范式在LLM思维链推理中已被证明能够有效提升结果的准确性，RCAgent将这一范式扩展应用于LLM自主智能体的任务生成，通过设计针对性的聚合策略，增强本地部署LLM的根因分析性能。自洽性聚合主要分为文本数据自洽性处理与工具使用轨迹自洽性处理两个维度，二者协同作用，提升分析结果的一致性与准确性。

在文本数据自洽性处理方面，RCAgent采用两种核心聚合方法：嵌入向量投票与LLM聚合。嵌入向量投票将传统的多数投票机制推广至语义空间，通过计算所有生成结果的平均语义嵌入，选取与该平均嵌入最接近的文本作为最终输出，这种方法能够有效捕捉不同结果的语义共性，提升输出结果的一致性。LLM聚合则直接提示LLM对各候选结果进行归纳总结，生成格式与长度一致的汇总内容，借助LLM强大的语义理解与归纳能力，提炼出最核心、最准确的分析结果。

工具使用轨迹的自洽性处理则面临着独特的挑战，自洽性范式虽适用于思维链推理，但直接对多轮ReAct轨迹（思考--行动--观察）进行采样，不仅计算成本高昂，还容易因工具调用错误导致分析效果下降。为解决这一问题，RCAgent提出了轨迹自洽一致性的中途采样方法，仅当决策循环到达最终阶段时才开始采样，使不同样本能够共享绝大部分前期轨迹。这种设计既节省了计算资源，又有效抑制了因工具调用错误导致的性能下降，显著提升了自洽性聚合的效率与效果。

三、实验验证：RCAgent性能的全面评估

为全面验证RCAgent的性能与稳定性，团队基于阿里云Flink平台的真实异常数据开展了系统实验，通过与传统方法对比，从有效性、稳定性、自洽性三个维度进行全面评估，确保框架能够满足工业级云平台根因分析的需求。

3.1 实验设置：贴近真实场景的配置与数据集

在模型配置方面，RCAgent的核心模型采用本地部署的Vicuna-13B-V1.5-16K，搭配vLLM后端，运行于单NVIDIA A100 SXM4 GPU（80GB）环境中，确保模型具备强大的推理能力与响应速度。嵌入模型选用内部部署的GTE-LARGE，该模型的性能优于常用的text-embedding-ada-002，能够更精准地捕捉文本语义信息。为充分验证RCAgent的优越性，实验选取了四类对比模型：ReAct框架、传统机器学习方法XGBoost、微调模型Fine-tune T5以及仅具备总结功能的LLM Summary。

数据集来源于阿里云Flink平台1个月内发生的15616个异常任务，这些任务均为不可恢复故障或6分钟内无法启动的严重异常，具备较高的代表性。为确保实验的公平性与有效性，团队对原始数据集进行了筛选处理，过滤掉简单 trivial 任务后，得到5000个有效任务，再按照"同类根因不超过2个"的平衡原则，最终保留161个离线测试样本，涵盖了代码缺陷、日志异常、资源不足等多种常见故障类型，能够全面检验模型的根因分析能力。

评估指标方面，实验采用多维度指标体系，全面衡量模型的性能表现。语义指标包括METEOR、BLEURT、BARTScore、NUBIA以及EmbScore（余弦相似度），用于评估根因分析结果与真实答案的语义一致性；LLM评估采用GPT-4-0613对结果进行评分，包括G-Correctness（正确性，0-10分）与G-Helpfulness（有用性，0-10分）两个维度；人工评估则由专业的SRE团队完成，采用H-Helpfulness（0-5分）指标，评估结果对实际运维工作的帮助程度；稳定性指标包括通过率（15步内完成任务比例）、无效动作率与轨迹长度，用于衡量模型的操作稳定性与效率。

3.2 实验结果：全方位优于传统方法

有效性实验结果显示，RCAgent在离线数据集的根因分析任务中全面优于原始ReAct框架及其他传统方法，尤其在根因预测与解决方案预测两个核心任务上表现突出。数据显示，RCAgent的根因预测METEOR指标较ReAct提升8.71，解决方案预测METEOR指标提升6.52，充分证明了其在核心任务上的优越性。进一步采用基于LLM总结的TSC聚合策略后，RCAgent的整体性能持续提升，其中解决方案预测的METEOR、BLEURT和G-Helpfulness分别提高3.51、4.50和2.28%，这一提升主要得益于TSC聚合策略增加了解决方案采样的多样性，使输出结果更具针对性与实用性。

稳定性实验结果表明，借助JSON修复、错误处理等增强机制，RCAgent展现出近乎完美的稳定性。数据显示，RCAgent在15步内的任务通过率达到99.38%，无效动作率仅为7.93%，显著优于ReAct框架。其极低的问题动作生成概率，使得RCAgent能够以更短的轨迹持续输出更准确、有效的根因分析结果，在实际运维场景中，能够有效缩短故障诊断时间，提升运维效率。

自洽性实验通过10次独立运行，研究了不同样本数量下自洽性（SC）方法对RCAgent性能的影响。实验结果显示，所有SC方法均在BARTScore与NUBIA指标上持续提升了RCAgent的性能，且当样本量达到20时，性能提升趋于稳定。其中，TSC聚合方法凭借其多样化的行动采样策略，表现优于其他自洽性方法。在所有评估指标上，基于LLM的聚合方法均优于基于嵌入向量的投票方法，且随着样本量的增加，优势进一步扩大，这表明LLM聚合能够在候选池扩大时，更全面地归纳总结候选结果，输出更精准、一致的分析结论。

四、总结与展望：LLM智能体在云运维中的落地启示

RCAgent通过"本地部署+工具增强+机制优化"的核心设计，成功解决了云平台根因分析中的数据隐私保护、上下文长度限制、动作有效性不足等核心挑战，在工业级场景中实现了比ReAct框架、传统AIOps方法更优的性能与稳定性。其创新的双智能体协同架构、OBSK观察管理机制、专用工具集设计、可靠性增强策略与自洽性聚合方法，不仅为云系统根因分析提供了高效、精准的解决方案，也为LLM自主智能体在工业级运维场景的落地提供了可参考的范式。

在实际应用中，RCAgent已在阿里云Apache Flink实时计算平台发挥重要作用，成功诊断出传统方法未能发现的异常流处理作业，为云平台的稳定运行提供了有力保障。这一落地实践充分证明，LLM自主智能体在云运维领域具备巨大的应用潜力，通过合理的框架设计与机制优化，能够有效解决传统运维方法面临的痛点难点，推动智能运维向更高阶的自动化、智能化方向发展。

展望未来，RCAgent仍有进一步优化与拓展的空间。在模型优化方面，可以探索多模态数据融合分析，整合文本日志、监控指标、链路数据等多类型信息，提升根因分析的全面性与准确性；在工具集拓展方面，可以增加更多领域专用工具，如资源调度分析工具、网络异常检测工具等，适配更复杂的云平台故障场景；在落地场景拓展方面，可以将框架应用于更多类型的云服务，如容器服务、数据库服务等，推动LLM自主智能体在云运维领域的规模化应用。