随着大模型技术的广泛应用,大语言模型(LLM)在对话系统、检索增强生成(RAG)、智能体(Agent)等场景中展现出无限的想象力与创造力。同时,基于 LLM 以及 AI 生态技术栈构建的应用以及业务场景也如雨后春笋般不断涌现。然而,LLM 应用在生产落地过程中面临着模型不确定性大、架构链路复杂、用户体验难以评估等诸多痛点。如何构建 LLM 应用的全链路可观测性体系以及如何评估可观测性能力是否完善,业界缺乏统一且完整细致的标准。

在此背景下,阿里云联合中国信通院及国内头部厂商、各行业建设方,历时数月共同编制《面向 LLM 应用的可观测性能力要求》,以规范和指导 LLM 应用可观测性能力建设实践。该标准面向 LLM 应用在训练、推理过程中的可观测建设工作,以数据采集、建模、存储、应用为主线,对各环节所需能力进行标准化规范。标准于 2025 年 7 月 22 日第十二届可信云大会主论坛正式发布。
面向 LLM 应用的可观测性能力要求
该标准面向云厂商可观测平台、可观测独立厂商产品、可观测建设方案、LLM 应用可观测方案等,标准从数据的全生命周期规范了面向 LLM 应用的可观测性技术要求以及数据模型构建的参考框架,前瞻性提出核心应用场景的能力建设指引。面向LLM应用的可观测性能力要求框架分为数据采集、数据模型、数据存储和数据应用四大部分,数据模型层分为指标体系、日志和链路三个部分,其中指标体系各分层逻辑关系如下:

- 基础设施层:是 LLM 应用运行的物理或虚拟资源底座,为整个系统提供算力、存储和网络等基础支撑,是所有上层功能实现的前提。(本节对基础设施层的网络、存储、主机、操作系统、系统进程的指标进行规范)
- 中间件层:指 LLM 应用的中间件,是连接基础设施层与上层模型/应用的技术桥梁,提供标准化工具和接口,简化模型开发、部署和运维的复杂度。(本节对中间件层的 RAG、语义缓存、MCP、向量数据库指标进行规范)
- 模型层:是 LLM 应用的核心智能载体,包含预训练模型本身及相关的优化与适配组件,决定了应用的"认知能力"。(本节对模型层的模型指标、成本指标、评估指标、多模态评估指标进行规范)
- 模型服务层:负责将模型层的能力转化为可调用的服务,解决模型从"离线训练"到"在线应用"的工程化问题,确保高效、稳定地响应上层请求。(本节对模型服务层的性能指标、失败指标、计量指标进行规范)
- 应用层:是 LLM 技术面向终端用户的最终形态,基于模型服务层提供的能力,结合具体场景需求构建的产品或功能,直接解决用户问题。(本节对应用层的性能指标、内容质量、用户体验指标、失败指标进行规范)
"阿里云可观测产品家族已率先构建起完整的大模型可观测工具链,标志着 AI 应用与可观测都已迈进新发展阶段。"阿里云云原生负责人周琦表示,"企业可以高效、灵活地构建大模型可观测体系,更有效地管理与观测 AI 资源与服务,为 AI 创新夯实技术底座。"在这个充满机遇的 AI 时代,企业如能灵活运用 AI 可观测技术,将重塑企业数字化创新的技术路径,为 AI 时代的商业创新提供确定性支撑。
据悉,阿里云已为全球 80 余个国家的百万企业级用户提供高效便捷、安全稳定的可观测服务。
- 米哈游基于日志服务 SLS 构建完整业务 & 运维可观测体系;
- 茶百道基于应用实时监控服务 ARMS 快速建立运维观测与响应能力,故障恢复效率提升 50% 以上;
- 传音控股借助 Prometheus、Grafana 等可观测产品,业务上线效率提高 60%;
- 极氪基于日志服务 SLS、应用实时监控服务 ARMS 构建完整监控与应急响应机制,告警平均恢复耗时缩短 50%。