告别 Agent“黑箱”!阿里云上线 AI Agent 可观测方案,支持 Multi-Agent 全链路透视

作者:比扬

背景:AI Agent 已经进入生产落地的深水区

AI Agent 正加速从实验走向规模化生产,行业进入高速增长期:据 Multimodal.dev 统计,2025年全球 AI Agent 市场规模已达 792 亿美元;Arcade.dev 调研显示,超过 66% 的落地项目已采用更复杂的 Multi-Agent 协作架构;Gartner 更是预测,到 2026 年将有 40% 的企业应用内嵌 AI Agent 能力 ** **1

与之相伴的,是 AI Agent 能力边界拓展带来的复杂度指数级跃迁:从早期的单轮问答,到如今的工具调用(Tool Use);从单一智能体,到 Planner/Worker/Critic 多角色协同的 Multi-Agent 网状拓扑。在典型的生产级 Agent 场景中,工具调用已成为核心交互方式,覆盖外部 API、数据库、代码沙箱等各类外部能力;Plan-Act-Observe-Reflect 的多步循环,让单次任务的决策点较传统应用成倍增长;同时,Agent 还需要同步处理文本、图像、音视频、PDF 等多模态数据,整个执行过程早已成为一个难以透视的"黑箱"。

生产落地的核心挑战

当 Agent 架构日趋复杂,缺乏可观测体系的 Agent 应用在生产环境中,面临四个核心挑战:

  • 成本失控风险: Token 作为 AI 应用的核心成本单元,传统方式缺乏实时用量监测能力,异常重试、重复调用等隐性消耗往往要到月底账单出具时才能被发现,成本治理的响应周期长达数周,企业难以对成本进行精细化管控。
  • 故障定位低效: Multi-Agent 的网状调用链,让故障的传播路径变得极其复杂。当问题发生时,研发人员很难快速定位是哪个 Agent 角色、哪个模型调用、还是哪个工具环节出了问题,跨模块的性能瓶颈和错误节点难以快速下钻,导致故障排查的平均修复时间(MTTR)居高不下。
  • 安全边界模糊: 随着工具调用的增多,Agent 的攻击面也在快速扩大,Prompt 注入、工具越权调用等风险层出不穷,这也正是 OWASP LLM Top 10 重点关注的安全风险 ** **2 ,但传统体系缺乏对这些风险的过程化监测能力。
  • 质量难以量化: 幻觉、决策偏离等 Agent 特有的质量问题,因为缺乏完整的过程数据支撑,研发人员无法复现问题、评估影响,更难以开展评估和持续的模型优化,导致 Agent 的效果难以稳定迭代。

面对这些新的挑战,传统的应用可观测体系已经力不从心。传统体系是为微服务架构设计的,它只能追踪请求在服务间的流转,却看不到 Agent 内部的推理逻辑、多角色的协作路径、工具调用的细节,更无法捕捉决策偏差的根源。为解决这一问题,阿里云云监控正式发布上线 AI Agent 可观测产品,帮助用户实现 Agent 执行过程的全链路追踪、实时健康度监控和数据驱动的持续优化。本文将从产品架构、核心能力和典型场景三个方面,全面介绍这一产品如何为 AI Agent 的生产落地保驾护航。

产品架构:四层体系,覆盖端到端全链路

AI Agent 可观测采用接入层、数据层、分析层、应用层的四层架构设计,实现从数据采集到 Agentic 分析的端到端全覆盖。

接入层:灵活适配,分钟级快速接入

  • 针对使用主流 AI 框架的智能体,提供多语言自研探针(Python/Node.js/Golang/Java),支持 LangChain/LangGraph、AgentScope、Dify、OpenClaw、Hermes、QoderWork、Claude Code、Codex 等 20+ 主流 AI 框架或智能体应用,对业务代码零侵入,分钟级完成接入。
  • 针对未使用标准化框架或有自定义采集需求的场景,提供 GenAI Utils 自定义埋点 SDK。
  • 同时兼容 OpenTelemetry GenAI 数据规范,支持 OTLP gRPC/HTTP 传输协议,存量可观测体系可平滑迁移并自动适配 Agent 观测体系,无需重复改造。

数据层:统一建模,全域数据无缝关联

基于 UModel 统一建模体系,将基础设施(GPU、ACK/ECS/FC)、AI 服务(推理服务、训练任务、SandBox)、AI 资产(模型、AI Agent、AI 应用、工具、数据集)等实体进行统一建模,对全域数据进行默认关联。完整存储推理过程数据,不丢失任何决策过程的细节,并支持多模态数据的原生预览。

分析层:多维分析,从全局到细节的完整洞察

全景拓扑、链路追踪、会话分析、指标大盘、智能告警五大核心模块协同工作,提供从全局视图到单链路下钻的完整分析路径。

应用层:Agentic 化,让可观测能力可被 Agent 原生使用

区别于传统可观测产品"人用工具"的定位,应用层将可观测能力全面 Agentic 化,提供与控制台对等的 CLI/Skills 接口,支持 AI Agent 直接调用可观测能力进行快速接入、智能查询、分析和告警处理。并在全路径内嵌 AI 辅助分析能力。

核心能力:全方位破解 Agent 可观测难题

全场景接入:三种模式,适配所有 Agent 形态

全局总览大盘:实时掌握整体运行态势

产品为用户提供了全局总览大盘,对已接入的 Agent 提供全局总览视图,覆盖会话统计、Token 用量统计、模型性能、Agent 调用和智能体框架分布等维度,帮助用户实时了解 Agent 整体运行态势。

拓扑与健康度:主动巡检,提前发现风险

全景拓扑: 实时展示 AI 应用、AI Agent、模型、工具等实体的全局拓扑关系。支持 Multi-Agent 调用关系的逐层下钻,帮助用户梳理 AI 资产并构建智能体业务 CMDB。

主动式健康巡检: 通过内置巡检规则和纳管自定义告警规则,为 AI 应用和 AI Agent 提供主动式健康检查。按需开启后以"红绿灯"方式直观呈现实时健康状态。当出现健康问题时,健康度详情页面展示具体异常事件和上下游影响面,并支持 AI 智能分析生成健康巡检报告。还可以通过 IM、电话等多种渠道订阅健康事件,第一时间收到风险通知。

全链路追踪:穿透黑箱,还原每一次推理与决策

基于标准 GenAI 数据规范记录 Agent 执行过程中的所有操作(LLM 调用、Tool 调用等),提供以下能力:

  • 轨迹追踪与回溯: 通过调用树、链路图、时序线和链路分析大盘等多种视图,完整还原 Agent 内部执行轨迹。
  • 工作流执行路径图: 将 Agent 工作流以图谱形式展现决策路径和工具调用关系,帮助用户评估 Agent 决策路径是否符合预期。
  • 推理过程数据还原: 以推理轨迹为时间线,将 Agent 内部推理过程数据完整还原,提供以过程数据为核心的专属视图。
  • 多模态数据原生预览: 支持文本、图像、音视频及 PDF 等追踪数据的捕获与原生预览。
  • 评估能力关联: 在链路追踪视图中关联评估能力,支持基于链路数据发起评估任务、按评估结果快速筛选高质量链路。
  • 链路转数据集: 支持批量将高价值链路转换为数据集,转换过程可配置自定义 Pipeline,满足不同场景的数据加工需求。

会话分析:从用户视角还原交互全流程

产品还提供了终端用户视角的会话分析能力,还原用户与 Agent 的多轮对话交互全过程,完美适配多轮对话、长周期会话、多模态等复杂场景。

通过 USER→SESSION→TRACE 的三层数据聚合结构,产品将分散的推理过程数据按照用户会话进行统一组织,支持多维度的灵活查询,完美满足业务统计、问题排查、用户交互体验等多种需求。

场景化分析:针对性解决核心业务问题

为每个 AI Agent/AI 应用提供独立的详情大盘,覆盖会话统计、调用统计、Token 统计、模型性能和工具调用维度。此外提供三类全局场景化分析视图:

  • Token 用量分析: 支持模型/AI 应用/AI Agent 多维筛选,提供输入/输出/缓存命中率统计及 Token 消耗分布明细,快速拆解成本构成,定位高消耗的环节和对象。
  • 模型性能分析: 提供调用 RED 指标(Rate/Error/Duration)、TTFT(首 Token 时间)、TPOT(每 Token 处理时间)等多维统计与趋势,支持多模型性能对比,帮助用户选择最优的模型配置。
  • 工具调用分析: 提供全局工具调用分布与性能明细、技能(Skills)加载统计,帮助分析工具/技能调用瓶颈,优化工具/技能的响应效率。
  • RAG 调用分析: 聚焦 Retrieval、Rerank、Embedding 调用的 RED 指标与数据趋势,辅助优化 RAG 应用的效果与性能。

智能告警与根因定位:分钟级定位问题根源

对 AI Agent/AI 应用提供覆盖模型调用、工具调用、Token 消耗和 Agent 自身调用等维度的告警指标集,实时记录异常告警事件并支持多维度筛选。

告警触发后,支持对异常进行 AI 智能分析和根因定位,并可通过多轮对话方式追问细节和进行二次分析。

Agentic Ops 能力

区别于传统可观测产品,AI Agent 可观测从设计之初就融入了 Agentic 的理念,让可观测能力不再只是给人用的工具,更能被 Agent 自己使用:

  • 能力全开放: 从接入到查数、统计、分析和告警的全链路,均提供与控制台对等的 CLI/Skills 接口,支持 AI Agent 直接集成和调用可观测能力。
  • 全域数据关联: 基于 UModel 体系对实体进行统一建模和默认关联,覆盖从 GPU 到 Agent 的全栈观测对象和数据,实现一次查询即可获取全域关联上下文,无需用户自己拼接数据。
  • 全链路 AI 辅助: 在 Trace 分析、健康度分析、指标异动分析和告警根因定位等场景内嵌 AI 辅助能力,帮助用户更快更方便地找到问题和定位问题。

典型落地场景:解决生产落地的核心痛点

场景一:Token 成本治理

问题: 缺乏实时 Token 用量观测,异常重试、重复调用等 Token 黑洞问题难以及时发现,成本归因周期长。

方案: 借助 AI Agent 可观测进行全方位的 Token 成本分析,支持按模型/Agent/应用多维度追踪 Token 消耗分布,提供输入输出 Token 数、缓存命中率与各 Agent 使用分布等明细数据的秒级趋势大盘。支持通过 AI 辅助定位高消耗链路,帮助用户快速识别 Token 消耗异常来源。

场景二:故障根因快速定位

问题: 在复杂的 Multi-Agent 场景下,网状的调用链让故障定位变得极其困难,传统方式 MTTR 长。

方案: 异常告警触发后(T+0s),健康度大盘下钻定位异常 Agent 节点(T+10s),链路追踪聚焦失败路径并通过工作流图展示决策环节(T+30s),AI 智能根因分析综合推理过程数据和调用上下文自动生成分析报告(T+60s),价值链路数据可一键转为数据集用于后续优化(T+90s)。

场景三:数据驱动的 Agent 持续优化

问题: 传统的 Agent 优化中,数据集的构建高度依赖人工标注,成本高、效率低,而且标注好的数据集往往缺少 Agent 推理过程的上下文,导致评估和优化脱节,Agent 的效果难以持续迭代。

方案: 通过链路追踪关联评估能力,筛选高质量链路并批量转换为数据集。转换过程支持自定义 Pipeline 灵活加工,完整保留推理过程与多模态上下文,支持评估结果直接驱动数据集筛选,形成"观测→评估→筛选→回灌"的闭环。

产品优势

总结

随着 Multi-Agent 多角色协作、多工具调用、多模态数据处理的快速普及,AI Agent 的复杂度正在指数级增长,可观测已经成为 AI Agent 规模化落地的必备能力。阿里云云监控的 AI Agent 可观测产品,提供从接入、建模、分析到 Agentic Ops 的全域观测和分析能力,帮助企业彻底打开 Agent 的黑箱,实现 Agent 执行过程的可追踪、可诊断、可优化。

让每次决策可追、可解、可优。

欢迎访问阿里云可观测 Playground 官网进行产品体验:sls.aliyun.com/doc/playgro...

参考资料:

1 市场数据来源:Multimodal.dev/Arcade.dev (2025 年 AI Agent 市场规模)、Arcade.dev 行业调研(Multi-Agent 架构采用率)、Gartner 预测(2026 年企业应用 AI Agent 内嵌率)

2 OWASP LLM Top 10

owasp.org/www-project...

3 OpenTelemetry GenAI Semantic Conventions

opentelemetry.io/docs/specs/...

相关推荐
lz18341 小时前
Agent Skills 也需要 lockfile
agent
沉默王二2 小时前
用Codex+Step 3.7Flash开发Agent工作流,198B激活11B参数,实测结果真有东西
agent·ai编程·编程语言
Jing_jing_X2 小时前
我用 Claude Code 搭了一个远程 Claude web:手机发指令,本地电脑自己写代码
ai·agent·个人开发·ai应用开发
_未完待续2 小时前
从零打造 AI Agent (三)—— Plan Mode:复杂任务的安全执行
agent·ai编程
LienJack2 小时前
《Re0 Build Harness》第四章 Harness 基础定义:模型外部的控制系统
agent
蛤密呱3 小时前
LangGraph:工具调用与条件边 - 附简单ReAct代码示例
agent
canyu3 小时前
从零设计一个自适应挖需的 AI 提示词系统:多轮对话 + 动态维度
agent
基因改造者3 小时前
多Agent交互设计
agent