使用 Azure SRE Agent 和 Elasticsearch 提升 SRE 生产力

作者:来自 Elastic Greg Crist

了解如何将 Azure SRE Agent 与 Elasticsearch 集成,以利用 AI 驱动的自主运维、更智能的检测和主动预防。

如果你是 Site Reliability Engineer (SRE),你一定有同感:云环境在不断扩展,架构复杂性令人窒息。你不断在分散的工具集中切换,为了管理计算、存储和网络服务而花费大量时间在手动、重复的任务上。这种持续的繁琐工作导致平均恢复时间(MTTR)高,并且说实话,会引发严重的运维疲劳。

这就是为什么采用 AI 驱动的方法不仅至关重要 ------ 它是解决现代系统挑战的必要手段。自主代理可以以最少的人为干预自动化完整的运维工作流,使 SRE 团队能够从持续的被动问题解决转向主动的系统工程。但关键在于:任何自主代理的有效性完全取决于其底层数据的质量。通过将 Azure SRE Agent 与 Elastic Observability 无缝集成,我们不仅提供简单的自动化,还为组织提供进入受控、AI 驱动自主运维新阶段的策略。

在本文中,我们将介绍 Elastic Observability 与 Azure SRE Agent 的协同工作方式,这种集成如何赋能 SRE 实现 AI 驱动的运维,以及如何开始使用。

选择的力量:为什么 Elastic Observability 是 AI 驱动运维的基础

对于现代 SRE,Elastic Observability 是不可或缺的高保真数据基础。Elastic 将环境复杂性转化为战略资产,通过提供统一的、搜索驱动的日志(Logs)、指标(Metrics)和追踪(Traces)视图。

Azure SRE Agent 不仅需要原始数据,还需要受控的、实时的生产洞察。Elastic 通过 ES|QL ------ 我们的管道查询语言 ------ 提供高速遥测关联和转换。该集成针对 Elastic 9.2.0+ 和 Elasticsearch Serverless 项目进行了优化,利用 Model Context Protocol (MCP) 为代理提供深度系统上下文。

专业提示 :要利用此集成,请确保在你的 Elastic 部署中启用了 Agent Builder 功能,因为它是代理安全访问生产环境的入口。

更佳组合:Elastic 与 Azure SRE Agent 集成的价值

将 Elastic 的搜索驱动可观测性与 Azure 的代理自动化结合,创建了一个 "更佳组合" 的生态系统,提供若干战略优势:

  • 更智能的检测与修复:将 Elastic 的实时受控数据和因果分析注入 Azure SRE Agent 工作流,使代理不仅能识别症状,还能理解根本原因。

  • 上下文丰富的调查:SRE 可以通过提供完整生产上下文(包括事件影响范围)加速警报分级,直接在工作环境中操作,消除在监控仪表板间切换的 "旋转椅"效应。

  • 主动预防:利用 Elastic 的历史趋势和实时信号,Azure SRE Agent 可以在影响终端用户体验前阻止回归和性能下降。

  • 自然语言交互:通过 Elasticsearch MCP 服务器,SRE 可以使用自然语言查询复杂集群,无需掌握复杂的查询语法即可进行深度数据探索。

实际场景:Elastic 驱动的 SRE 实战

该集成使 SRE 能够通过对话式自动化解决实际问题:

  • 事件分级:SRE 提示代理:"搜索过去一小时内所有日志索引的错误。" 代理调用 Agent Builder 中的 MCP 工具,几秒钟内返回错误日志的优先列表,识别服务峰值。

  • 性能分析:为了识别重复模式,SRE 命令:"运行 ES|QL 查询,找出前十种错误类型。" 代理使用 ES|QL 聚合遥测数据,使团队能够根据频率优先修复开发问题。

  • 基础设施健康:在怀疑 Azure 资源故障时,SRE 可以查询数据层:"显示我的集群指标信息。"通过调用 MCP 工具,代理判断节点故障是否影响数据可用性。

实用操作指南:在 Elastic 中集成 Azure SRE Agent

1)在 Elastic 中通过你的 Kibana 界面创建 API Key,并记住该密钥:

2)在 Agent Builder 中查找并复制你的 MCP Endpoint:

3)在 Azure portal 中,找到 SRE Agent 服务:

4)创建一个 Agent:

5)添加 Elastic Connector:

6)与代理对话。在聊天界面使用 "/agent" 选择你的代理:

结论

Elastic Observability与 Azure SRE Agent 的整合代表了云运维的一次战略性飞跃。通过将 Elastic 的深度数据和 ES|QL 引擎与 Azure 的自主自动化相结合,组织可以显著降低 MTTR,消除重复劳动,并最大化 Azure 投资的 ROI。

下一步

在 Microsoft Marketplace 上探索 Elasticsearch Observability 解决方案的实现,并访问 Azure SRE Agent 资源,开始试用以 Elastic 为中心的自主运维。

了解更多,请查看以下链接:

原文:https://www.elastic.co/observability-labs/blog/azure-sre-agent-elasticsearch

相关推荐
Ferries几秒前
《从前端到 Agent》系列|03:应用层-RAG(检索增强生成,Retrieval-Augmented Generation)
前端·人工智能·机器学习
Fleshy数模2 分钟前
基于 ResNet18 的迁移学习:食物图像分类实现
人工智能·分类·迁移学习
海上_数字船长2 分钟前
LTN 学习机制解析:基于知识库满足度的符号学习与泛化
人工智能
阿里云大数据AI技术17 分钟前
Qwen3.6-Plus on PAI-DSW:云端 AI 开发,一站搞定
人工智能
格林威28 分钟前
SSD 写入速度测试命令(Linux)(基于工业相机高速存储)
linux·运维·开发语言·人工智能·数码相机·计算机视觉·工业相机
Hilaku29 分钟前
OpenClaw 跟病毒的区别是什么?
前端·javascript·人工智能
逻辑君32 分钟前
认知神经科学研究报告【20260008】
人工智能·深度学习·神经网络·机器学习
GIS数据转换器35 分钟前
延凡智慧水务系统:引领行业变革的智能引擎
大数据·人工智能·无人机·智慧城市
行者无疆_ty1 小时前
小龙虾(OpenClaw)安装教程
人工智能·agent·openclaw·小龙虾
2601_949539451 小时前
家用新能源 SUV 核心技术科普:后排娱乐、空间工程与混动可靠性解析
大数据·网络·人工智能·算法·机器学习