使用 Azure SRE Agent 和 Elasticsearch 提升 SRE 生产力

作者:来自 Elastic Greg Crist

了解如何将 Azure SRE Agent 与 Elasticsearch 集成,以利用 AI 驱动的自主运维、更智能的检测和主动预防。

如果你是 Site Reliability Engineer (SRE),你一定有同感:云环境在不断扩展,架构复杂性令人窒息。你不断在分散的工具集中切换,为了管理计算、存储和网络服务而花费大量时间在手动、重复的任务上。这种持续的繁琐工作导致平均恢复时间(MTTR)高,并且说实话,会引发严重的运维疲劳。

这就是为什么采用 AI 驱动的方法不仅至关重要 ------ 它是解决现代系统挑战的必要手段。自主代理可以以最少的人为干预自动化完整的运维工作流,使 SRE 团队能够从持续的被动问题解决转向主动的系统工程。但关键在于:任何自主代理的有效性完全取决于其底层数据的质量。通过将 Azure SRE Agent 与 Elastic Observability 无缝集成,我们不仅提供简单的自动化,还为组织提供进入受控、AI 驱动自主运维新阶段的策略。

在本文中,我们将介绍 Elastic Observability 与 Azure SRE Agent 的协同工作方式,这种集成如何赋能 SRE 实现 AI 驱动的运维,以及如何开始使用。

选择的力量:为什么 Elastic Observability 是 AI 驱动运维的基础

对于现代 SRE,Elastic Observability 是不可或缺的高保真数据基础。Elastic 将环境复杂性转化为战略资产,通过提供统一的、搜索驱动的日志(Logs)、指标(Metrics)和追踪(Traces)视图。

Azure SRE Agent 不仅需要原始数据,还需要受控的、实时的生产洞察。Elastic 通过 ES|QL ------ 我们的管道查询语言 ------ 提供高速遥测关联和转换。该集成针对 Elastic 9.2.0+ 和 Elasticsearch Serverless 项目进行了优化,利用 Model Context Protocol (MCP) 为代理提供深度系统上下文。

专业提示 :要利用此集成,请确保在你的 Elastic 部署中启用了 Agent Builder 功能,因为它是代理安全访问生产环境的入口。

更佳组合:Elastic 与 Azure SRE Agent 集成的价值

将 Elastic 的搜索驱动可观测性与 Azure 的代理自动化结合,创建了一个 "更佳组合" 的生态系统,提供若干战略优势:

  • 更智能的检测与修复:将 Elastic 的实时受控数据和因果分析注入 Azure SRE Agent 工作流,使代理不仅能识别症状,还能理解根本原因。

  • 上下文丰富的调查:SRE 可以通过提供完整生产上下文(包括事件影响范围)加速警报分级,直接在工作环境中操作,消除在监控仪表板间切换的 "旋转椅"效应。

  • 主动预防:利用 Elastic 的历史趋势和实时信号,Azure SRE Agent 可以在影响终端用户体验前阻止回归和性能下降。

  • 自然语言交互:通过 Elasticsearch MCP 服务器,SRE 可以使用自然语言查询复杂集群,无需掌握复杂的查询语法即可进行深度数据探索。

实际场景:Elastic 驱动的 SRE 实战

该集成使 SRE 能够通过对话式自动化解决实际问题:

  • 事件分级:SRE 提示代理:"搜索过去一小时内所有日志索引的错误。" 代理调用 Agent Builder 中的 MCP 工具,几秒钟内返回错误日志的优先列表,识别服务峰值。

  • 性能分析:为了识别重复模式,SRE 命令:"运行 ES|QL 查询,找出前十种错误类型。" 代理使用 ES|QL 聚合遥测数据,使团队能够根据频率优先修复开发问题。

  • 基础设施健康:在怀疑 Azure 资源故障时,SRE 可以查询数据层:"显示我的集群指标信息。"通过调用 MCP 工具,代理判断节点故障是否影响数据可用性。

实用操作指南:在 Elastic 中集成 Azure SRE Agent

1)在 Elastic 中通过你的 Kibana 界面创建 API Key,并记住该密钥:

2)在 Agent Builder 中查找并复制你的 MCP Endpoint:

3)在 Azure portal 中,找到 SRE Agent 服务:

4)创建一个 Agent:

5)添加 Elastic Connector:

6)与代理对话。在聊天界面使用 "/agent" 选择你的代理:

结论

Elastic Observability与 Azure SRE Agent 的整合代表了云运维的一次战略性飞跃。通过将 Elastic 的深度数据和 ES|QL 引擎与 Azure 的自主自动化相结合,组织可以显著降低 MTTR,消除重复劳动,并最大化 Azure 投资的 ROI。

下一步

在 Microsoft Marketplace 上探索 Elasticsearch Observability 解决方案的实现,并访问 Azure SRE Agent 资源,开始试用以 Elastic 为中心的自主运维。

了解更多,请查看以下链接:

原文:https://www.elastic.co/observability-labs/blog/azure-sre-agent-elasticsearch

相关推荐
千匠网络1 分钟前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
马丁聊GEO2 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker2 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.2 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑2 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金2 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移2 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower2 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
GitCode官方3 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit
大刘讲IT3 小时前
AI重塑企业信息价值标准:从“系统供给”到“用户定义”的企业数字化新范式
人工智能·经验分享·ai·制造