AWS DevOps Agent 接入观测云最佳实践

AWS DevOps Agent 介绍

AWS DevOps Agent 是 Amazon 推出的 AI 运维助手,让用户通过自然语言对话管理云资源、排查故障和生成基础设施代码。它深度集成 AWS 服务,可自动分析日志与指标,提供智能诊断和优化建议。核心价值在于降低运维技术门槛,提升故障响应效率,实现"人人可运维"的普惠目标。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

AWS DevOps Agent 接入观测云 MCP 详细操作步骤

一、进入注册页面,选择 MCP Server 注册入口

首先打开 AWS DevOps Agent 操作界面,点击功能菜单栏中的 Setting (设置)选项,在展开的子菜单中选择 Register (注册)功能。在注册页面中,可看到 GitLab、ServiceNow、Slack 等多个第三方平台注册入口,本次操作需选择 MCP Server 注册选项,进入观测云 MCP 服务器的专属注册配置流程,页面将提示 "AWS DevOps Agent MCP Server associated successfully" 即代表进入关联流程。

二、填写观测云 MCP Server 的 Endpoint URL

进入 MCP server details(MCP 服务器详情)配置环节,依次完成四步核心配置:

1、协议确认:需注意,仅实现了 Streamable HTTP 传输协议的 MCP 服务器可完成对接,此为基础技术前提;

2、授权流程选择:进入 Authorization configuration(授权配置)环节,完成基础授权流程的选定;

3、服务器命名:在 Name 栏位填写自定义的 MCP 服务器名称,便于后续管理与识别;

4、端点 URL 配置与提交 :在 Endpoint URL 栏位填写观测云专属的 MCP 服务器端点地址:https://obsy-ai.guance.com/obsy_ai_mcp/mcp,该 URL 信息将在用户的 AWS CloudTrai 日志中同步展示,若有需要可在 Description 栏位填写服务器相关描述信息,勾选 "Enable Dynamic Client Registration" 可允许 DevOps Agent 自动向 MCP 的授权服务器完成注册,最后点击 "Next" 进入下一步配置。

三、选择 API Key 授权方式并完成配置

AWS DevOps Agent 支持 OAuth Client Credentials、OAuth 3LO、API Key 三种授权流程,本次接入观测云 MCP 需选择 API Key 授权方式,该方式无需重定向与授权确认流程,可直接对调用应用进行身份验证,实现简单高效的单向访问授权,具体配置步骤如下:

1、固定请求头配置 :将 Header(请求头)设置为固定值 Authorization,此为观测云 MCP 服务器识别请求的核心标识;

2、API Key Value 组合配置 :API Key Value 为组合式字段,拼接规则为观测云 {apikey}-{region} ,其中 apikey 为观测云平台生成的专属访问密钥,region 为观测云 MCP 服务所在的区域标识;

3、观测云 API Key 获取 :登录观测云调试空间,进入系统设置 - API Keys 管理模块,可查看或创建专属的 API Key,同时可配置该密钥的角色与权限,确保密钥具备 MCP 服务相关的访问权限;

4、Mcp Region 区域标识对应:观测云不同部署区域对应固定的区域标识与 openapi 地址,核心区域映射关系如下:

makefile 复制代码
SITE_KEY_MAP = {
    # === 中国区 SaaS 部署 ===
    "cn1": "https://openapi.guance.com",  # 中国区1(杭州)--默认
    "cn2": "https://aws-openapi.guance.com",  # 中国区2(宁夏)
    "cn4": "https://cn4-openapi.guance.com",  # 中国区4(广州)
    "cn6": "https://cn6-openapi.guance.one",  # 中国区6(香港)
    "us1": "https://us1-openapi.guance.com",  # 海外区1(俄勒冈)
    "eu1": "https://eu1-openapi.guance.one",  # 欧洲区1(法兰克福)
    "ap1": "https://ap1-openapi.guance.one",  # 亚太区1(新加坡)
    "za1": "https://za1-openapi.guance.com",  # 非洲区1(南非)
    "id1": "https://id1-openapi.guance.com",  # 印尼区1(雅加达)
}

完成以上配置后,依次点击 "Previous" 核对信息,确认无误后点击 "Next" 提交,页面提示 "AWS DevOps Agent MCP Server associated successfully" 即代表 MCP 服务器基础配置完成。

四、在 Agent Space 中关联 MCP Server

1、回到 AWS DevOps Agent 操作主界面,进入 Agent Spaces 功能模块,该模块用于管控 DevOps Agent 的访问范围、功能权限与操作边界,可设置 Agent 的可见性、能力范围,企业当前最多可创建 10 个 Agent Spaces,满足不同业务场景的权限隔离需求;

2、在已创建的 Agent Spaces 列表中,选择目标空间并点击 View details (查看详情),在详情页面中找到 MCP Server 选项并点击,进入 MCP 服务器关联环节。

五、添加 MCP Tool 工具并保存配置

1、进入目标 Agent Space 的 MCP server tools 配置页面,页面将展示可选择的 MCP 工具列表,本次接入需将所有 MCP Tool 工具全部添加,包含list_checkerslist_logging_query_ruleslist_dashboardsquery_log_dataquery_metric_dataquery_trace_dataquery_rum_data共 7 项;

2、温馨提示:出于系统安全考虑,建议仅选择具备只读功能的 MCP server tools,切勿启用可对外部系统进行修改、删除、写入数据的工具,防止因权限过大引发数据安全风险;

3、完成 7 项工具的勾选后,点击 Save(保存)按钮,完成 MCP 工具的权限配置。

六、进入 Operator access 模块启动故障调查

1、完成 MCP Server 与工具配置后,在目标 Agent Space 的详情页面中选择 Operator access(操作访问)选项,进入运维操作核心界面,该界面包含 Topology(拓扑)、Capabilities(能力)、Web app(网页应用)三大核心功能模块,可实现资源拓扑查看、Agent 能力扩展、网页端全功能操作等需求;

2、在 Operator access 界面中点击 Start investigation (启动调查),进入调查配置页面,在 Investigation starting point(调查起点)栏位输入需要调查的信息,可包括告警内容、监控指标、日志片段等,为 DevOps Agent 提供明确的调查方向;

3、若页面出现 "Fetching data"(数据获取中)、"Investigating"(调查中)等状态提示,并能正常展示 MCP 服务相关的查询结果,则证明观测云 MCP 服务已成功接入。

AWS DevOps Agent 接入观测云 MCP 功能演示

本次演示以分析最近 15 分钟的 error 日志为核心需求,验证接入后的功能可用性,具体操作与结果如下:

1、提交调查需求:在 Start investigation 的调查起点栏位输入 "分析最近 15 分钟的 error",DevOps Agent 将自动识别需求,生成详细的调查配置:调用 MCP 服务查询过去 15 分钟内状态为 "error" 的追踪信息,按错误类型对近期错误进行分类聚合,并为每个错误类别提供一个原始日志样本;

2、自动执行调查:确认调查配置后,点击 "Start investigating",DevOps Agent 将通过观测云 MCP 服务自动采集、分析观测云中的日志与追踪数据,整个过程无需人工干预;

3、获取调查结果:调查完成后,DevOps Agent 将输出完整的分析报告,包含错误分类、原始日志样本、统计数据、核心发现等内容。

一、错误日志分类结果

本次调查在指定的 15 分钟时间窗口内(2026-02-10 07:12:19-07:27:19 UTC),共识别出 3 类核心错误,每类错误均明确标注错误类型、错误代码、所属服务与错误描述:

1、配置未找到错误(404) :错误类型为forethought.utils.exceptions.APIException,错误代码ftLogackupCfgNoExists,所属服务inner-api,错误描述为 "指定的数据转发配置不存在";

2、查询超时错误(500) :错误类型为errors.errorString,所属服务kodo-inner,错误描述为 "500 内部服务器错误,查询超时";

3、未知 API 错误(500) :错误类型为forethought.utils.exceptions.APIException,错误代码ft.CloudCareApiError,所属服务front-api,错误描述为 "未知错误"。

二、错误统计与核心发现

1、汇总统计:本次调查共发现 8 条错误日志,其中配置未找到错误 2 条、查询超时错误 3 条、未知 API 错误 1 条,各错误的 HTTP 状态、平均持续时间、所属服务均清晰可查;

2、核心发现

  • 最严重问题:kodo-inner服务出现查询超时错误,超时时长达到 30 秒,对服务性能影响较大;
  • 高频问题:inner-api服务在日志备份操作中频繁出现配置查找失败的情况;
  • 集成问题:front-api服务调用 CloudCare Boss 外部 API 时出现调用失败,存在跨服务集成隐患。

总结

将 AWS DevOps Agent 与观测云平台进行深度集成,是企业云运维体系升级的重要举措,能够实现 AWS 基础设施与企业 DevOps 流程的全链路可观测,为企业云原生架构的稳定运行提供全方位支撑,核心价值体现在以下多个方面:

  • 全维度资源管控:企业可通过 AWS DevOps Agent 的自然语言交互能力,结合观测云的全链路监控数据,全面掌控 AWS 云资源的运行状态、自动化部署的性能表现及核心运维指标,实现从底层基础设施到上层业务应用的一体化监控与管理;
  • 提前故障预警:借助 DevOps Agent 的智能分析能力与观测云的实时监控能力,能够及时识别云环境中的配置漂移问题与各类潜在故障,将运维工作从 "事后补救" 转变为 "事前预防",大幅降低故障发生率与故障影响范围;
  • 持续优化交付效率:通过对 DevOps 流程全链路的监控与分析,精准定位自动化部署、代码发布等环节中的效率瓶颈,持续优化交付流程,提升企业软件交付的速度与质量;
  • 精细化运营管理:实现对 AWS DevOps 操作行为的全流程审计,同时对云资源的成本消耗进行精细化追踪,清晰掌握各业务、各环节的资源使用情况,为企业成本优化提供数据支撑;
  • 合规治理与架构优化:基于全链路的监控数据与操作审计记录,企业能够更好地满足行业合规要求,同时通过对资源运行状态与性能数据的分析,为云架构的优化升级提供科学的决策依据。

总体而言,AWS DevOps Agent 与观测云 MCP 的深度融合,能够帮助企业打破云运维与监控的信息孤岛,实现运维工作的智能化、自动化与精细化,最终达成降本增效的核心经营目标,为企业数字化转型提供稳定、高效、安全的云运维支撑体系。

相关推荐
杨艺韬2 小时前
为什么需要理解 LangChain
langchain·agent
火车叼位3 小时前
GSD 里的 phase:创建、讨论、规划、执行、验证、转场
agent
How_doyou_do3 小时前
claude code源码万字深入分析
agent·claude code
rising start3 小时前
Dify在Windows上的部署
大模型·agent·dify
Pitayafruit3 小时前
Windows 也能跑 Hermes Agent!完整安装教程 + 飞书接入,全程避坑
人工智能·llm·agent
深度学习机器3 小时前
一文快速看懂Hermes Agent
llm·agent
赵康3 小时前
用 Agent Skill 自动生成工作周报
agent·周报·skill
阿里云大数据AI技术3 小时前
智能体时代的数据飞轮:Agentic小模型的迭代进化
人工智能·agent
老A技术联盟4 小时前
【祛魅】一篇文章带你读懂AI领域的各种名词
agent