阿里云联合信通院发布《面向LLM应用的可观测性能力要求》

随着大模型技术的广泛应用，大语言模型（LLM）在对话系统、检索增强生成（RAG）、智能体（Agent）等场景中展现出无限的想象力与创造力。同时，基于 LLM 以及 AI 生态技术栈构建的应用以及业务场景也如雨后春笋般不断涌现。然而，LLM 应用在生产落地过程中面临着模型不确定性大、架构链路复杂、用户体验难以评估等诸多痛点。如何构建 LLM 应用的全链路可观测性体系以及如何评估可观测性能力是否完善，业界缺乏统一且完整细致的标准。

在此背景下，阿里云联合中国信通院及国内头部厂商、各行业建设方，历时数月共同编制《面向 LLM 应用的可观测性能力要求》，以规范和指导 LLM 应用可观测性能力建设实践。该标准面向 LLM 应用在训练、推理过程中的可观测建设工作，以数据采集、建模、存储、应用为主线，对各环节所需能力进行标准化规范。标准于 2025 年 7 月 22 日第十二届可信云大会主论坛正式发布。

面向 LLM 应用的可观测性能力要求

该标准面向云厂商可观测平台、可观测独立厂商产品、可观测建设方案、LLM 应用可观测方案等，标准从数据的全生命周期规范了面向 LLM 应用的可观测性技术要求以及数据模型构建的参考框架，前瞻性提出核心应用场景的能力建设指引。面向LLM应用的可观测性能力要求框架分为数据采集、数据模型、数据存储和数据应用四大部分，数据模型层分为指标体系、日志和链路三个部分，其中指标体系各分层逻辑关系如下：

基础设施层：是 LLM 应用运行的物理或虚拟资源底座，为整个系统提供算力、存储和网络等基础支撑，是所有上层功能实现的前提。（本节对基础设施层的网络、存储、主机、操作系统、系统进程的指标进行规范）
中间件层：指 LLM 应用的中间件，是连接基础设施层与上层模型/应用的技术桥梁，提供标准化工具和接口，简化模型开发、部署和运维的复杂度。（本节对中间件层的 RAG、语义缓存、MCP、向量数据库指标进行规范）
模型层：是 LLM 应用的核心智能载体，包含预训练模型本身及相关的优化与适配组件，决定了应用的"认知能力"。（本节对模型层的模型指标、成本指标、评估指标、多模态评估指标进行规范）
模型服务层：负责将模型层的能力转化为可调用的服务，解决模型从"离线训练"到"在线应用"的工程化问题，确保高效、稳定地响应上层请求。（本节对模型服务层的性能指标、失败指标、计量指标进行规范）
应用层：是 LLM 技术面向终端用户的最终形态，基于模型服务层提供的能力，结合具体场景需求构建的产品或功能，直接解决用户问题。（本节对应用层的性能指标、内容质量、用户体验指标、失败指标进行规范）

"阿里云可观测产品家族已率先构建起完整的大模型可观测工具链，标志着 AI 应用与可观测都已迈进新发展阶段。"阿里云云原生负责人周琦表示，"企业可以高效、灵活地构建大模型可观测体系，更有效地管理与观测 AI 资源与服务，为 AI 创新夯实技术底座。"在这个充满机遇的 AI 时代，企业如能灵活运用 AI 可观测技术，将重塑企业数字化创新的技术路径，为 AI 时代的商业创新提供确定性支撑。

据悉，阿里云已为全球 80 余个国家的百万企业级用户提供高效便捷、安全稳定的可观测服务。

米哈游基于日志服务 SLS 构建完整业务 & 运维可观测体系；
茶百道基于应用实时监控服务 ARMS 快速建立运维观测与响应能力，故障恢复效率提升 50% 以上；
传音控股借助 Prometheus、Grafana 等可观测产品，业务上线效率提高 60%；
极氪基于日志服务 SLS、应用实时监控服务 ARMS 构建完整监控与应急响应机制，告警平均恢复耗时缩短 50%。