阿里云正式开源 LoongSuite：打造 AI 时代的高性能低成本可观测采集套件

作者：阿里云可观测开源

AI Agent 技术架构演进重塑软件工程实践方式

在 AI Agent 开发领域，技术架构的演进正在重塑软件工程的实践方式。开发者既可以通过 Cursor、通义灵码、Claude Code 等智能编程助手提升代码生成效率，也可依托专业的 AI Agent 开发框架构建完整的智能体系统。技术生态呈现出多维度发展：实现方式既有需要深度编码的高代码方案，也有通过可视化组件拖拽的低代码平台；技术栈维度 Java 生态的 Spring AI Alibaba 与 Python 领域的 Dify、AgentScope 等工具形成跨语言支持体系，其中 Python 凭借其丰富的 AI 库生态占据主导地位。技术演进也催生新型开发范式：AutoGen 的多 Agent 对话框架、LangChain 的模块化组件体系，都在降低智能体开发的技术门槛。

我们把智能体的核心能力体系，总结成四个关键构成维度：感知层需要集成多模态交互能力，包括自然语言处理、语音识别和视频流分析；决策中枢由大模型构成，通过 AI 网关（如 Higress）实现模型调用的统一调度，同时也承担流量控制与安全防护的关键角色；记忆机制存储用户交互历史并具备上下文关联能力；工具集成方面，随着 MCP 协议的出现，工具的使用逐渐标准化。工具成为 AI Agent 和传统互联网时代的数字世界很好的沟通渠道。而 MCP 市场的出现可以将 MCP 工具集中进行管理和发现，高效完成 Agent 和工具的连接。同时，当单体 Agent 的能力边界被突破时，多 Agent 系统通过 A2A 协议实现协同计算，这种分布式智能架构能够处理更复杂的任务场景。

AI 工具链全景图

随着开发工具链的持续完善，AI Agent 在完成开发后需要进行部署。Agent 执行环境的差异化需求催生了多样的架构模式：面向个人用户的桌面端 Agent（如 Cherry Studio, DeepChat）可以通过云端沙箱环境将运行时延伸到云端，而面向企业服务的 Agent 则运行在具备资源隔离的云原生环境中，Serverless 架构（如函数计算）可以为其提供弹性伸缩的基础设施。在 AI Agent 运行过程中，一些通用的能力也需要由中间件来支撑：通过 Nacos 实现的动态 Prompt 管理以及 MCP 注册中心、Higress 可以作为 AI 模型和 MCP Server 统一代理、RocketMQ 支撑的异步任务队列、Redis 提供的状态存储等共同构成智能体运行的技术底座。同时，安全体系的构建面临数据合规与系统防护双重挑战。在数据治理层面，需建立敏感信息过滤机制和审计追踪系统；针对 MCP 协议的安全漏洞，可采用沙箱隔离、工具签名认证等技术手段构建防御体系。可观测性平台通过采集 Agent 与模型的调用、token 消耗、性能指标等关键信息，为系统优化和威胁检测提供数据支撑。

可观测性：AI Agent 技术发展的重要基石

正如前文提到，AI Agent 的开发已突破传统软件工程的边界，其非确定性决策机制与动态化执行流程对可观测性提出了革命性要求。一个智能体其背后涉及的多模态数据处理、大模型推理及工具链调用的复杂度呈指数级增长。这种复杂性不仅体现在技术架构层面，更深刻影响着系统的稳定性保障、成本控制与合规审计等核心运维环节。

AI Agent 的自主决策特性使其区别于传统软件应用，涉及多模态数据处理、大模型推理及工具调用等复杂交互。当这种非线性工作流应用于真实业务场景时，任何环节的异常都可能引发连锁反应。另一方面，当 Agent 与模型进行多轮交互时，中间过程可能产生惊人的 Token 消耗，甚至有可能陷入无休止的状态，形成所谓的 "Token 黑洞"。在缺乏链路追踪机制的情况下，开发者难以定位服务异常的根源。通过构建端到端的可观测能力可以提供坚实的决策依据。

AI Agent 的迭代升级需要在保持服务连续性的前提下进行，这要求建立完善的回归测试评估体系。每一次提示词、模型的变更都可能引发不可预见的副作用。每一次 AI Agent 的修改和发布上线，我们都需要对 Agent 执行的结果进行评估，这相当于对 AI Agent 进行"回归测试"。通过采集执行过程中的可观测数据，企业可以构建自动化评估框架，量化新版本对服务质量的影响，避免版本迭代风险失控。

随着生成式 AI 不断发展，可观测性正从运维工具进化为 AI 应用架构的核心组件。正是看到了这样的技术趋势，OpenTelemetry 社区推动的 GenAI 语义约定，正在构建跨框架、跨供应商的标准化数据规范。也是在这样的技术背景之下，阿里云正式开源 LoongSuite 可观测采集套件，在顺应 AI 时代技术发展趋势的基础上，帮助更多企业，通过高性能低成本的方式，更高效地利用标准化数据规范模型建立可观测体系。

LoongSuite ：打造 AI 时代高性能低成本的可观测采集套件

LoongSuite （/lʊŋ swiːt/）（音译龙-sweet），作为下一代可观测性技术生态的核心载体，核心数据采集引擎实现了主机级探针与进程级插桩的有效结合，进程级探针实现应用内细粒度可观测数据采集，而主机探针则实现了高效灵活的数据处理和数据上报，以及通过 eBPF 等技术实现了进程外数据采集能力。

LoongSuite 技术应用架构

在进程级数据采集层面，LoongSuite 对 Java、Go、Python 等主流编程语言构建企业级观测能力。通过语言特性的深度适配，采集器能够自动捕获函数调用链路、参数传递路径及资源消耗，无需修改业务代码即可实现运行时状态的精准采集。这种无侵入式设计特别适用于动态更新频繁的技术环境，既保障观测数据的完整性，又避免对核心业务逻辑产生干扰。当面对复杂工作流时，系统可自动关联分布式追踪上下文，构建完整的执行路径拓扑。作为核心数据采集引擎，LoongCollector 实现多维度观测数据的统一处理，从原始数据采集到结构化转换，再到智能路由分发，整个流程通过模块化架构实现灵活编排。这种架构使观测数据既可对接开源分析平台实现自主治理，也可无缝衔接托管服务构建云原生观测体系。在技术生态构建方面，阿里云深度参与国际开源标准制定，其核心组件与 OpenTelemetry 等主流标准兼容。接下来，我们将逐一介绍相关组件。

LoongCollector

LoongCollector 作为新一代可观测性数据采集器，通过深度性能优化与技术架构创新，为云原生智算服务提供了高性能、高稳定的可观测数据采集与预处理解决方案，尤其在 AI 场景中展现出显著优势。

首先，LoongCollector 具备多维度的可观测数据采集能力，支持 Logs、Metrics、Traces、Events、Profiles 等多种类型数据的统一采集、处理与传输，实现了 All-in-One 的可观测性管理架构。它融合了实时日志采集、Prometheus 指标拉取、eBPF 技术等能力，在无需修改系统代码的前提下完成无侵入式监控，能够高效获取各类性能指标，尤其适用于大规模分布式训练和推理任务中的一体化可观测需求。

其次，LoongCollector 在性能与稳定性方面表现出色。其采用事件驱动架构、时间片调度、无锁化设计等技术，确保在高并发、大规模数据采集场景下仍能保持低资源消耗和高吞吐量。同时，其高低水位反馈队列机制和持久化缓存能力，使其具备良好的流量控制和容错能力，确保数据不丢失、采集不间断、服务不抖动，全面满足 AI 训练过程中对稳定性、连续性和可靠性的严苛要求。

再者，在 AI 场景中，LoongCollector 支持多种部署模式，包括 Agent 模式和集群模式，能够灵活适应分布式训练和推理任务的弹性需求。其具备自动发现容器上下文、关联 K8s 元信息、多租户隔离等能力，确保在复杂云原生环境下实现高效、安全的数据采集。同时，通过配置管理服务 ConfigServer，可实现对大规模 Agent 的集中管控与动态配置下发，显著提升运维效率与系统可控性。

此外，LoongCollector 实现了多维度观测数据的统一处理能力。从原始数据采集到结构化转换，到数据过滤聚合处理，再到路由分发，全流程模块化灵活编排、按需扩展。其支持 SPL 查询语言与多语言插件双引擎驱动，并内置丰富的数据处理算子，满足多样化、高吞吐的数据预处理场景。

综上所述，LoongCollector 凭借其全面的数据采集能力、卓越的性能表现、灵活的部署方式与强大的可编程性，成为 AI 场景下构建可观测性体系的核心基础设施，助力企业实现高效、稳定的智算服务运维。

LoongSuite Python Agent

LoongSuite Python Agent 基于 OpenTelemetry Python Agent 构建，OTel 社区由于还在制定 GenAI 语义规范，很多 AI 框架的支持尚未完全实现，目前基本只有 OpenAI 的插件可以支持可观测数据采集，和国内的流行 AI 框架相去甚远。LoongSuite Python Agent OTel GenAI 语义规范的最新实现，在遵循开源语义规范的基础上，添加了国内流行插件的支持。例如国内流行的 AgentScope, Agno 等 AI 编程框架，目前已经率先提供了支持，更多插件包括 Dify、Langchain、MCP Client 的支持，陆续会开源，并且会将这些插件贡献回 OTel 社区。通过 Python agent 我们可以轻松地采集 AI agent 调用模型和工具过程中的详细信息，耗时等多方面的数据。借助 OTel 项目可以将这些数据以标准的 OTLP 协议的方式上报到任意的存储之中，并且通过可视化的界面进行展示。

LoongSuite Go Agent

LoongSuite Go Agent 通过编译时插桩技术，为 Go 语言构建的 AI Agent 提供无侵入式的观测能力。通过深度解析 Go 语言的编译流程，在 AST 语法树分析阶段植入监控逻辑，实现了在不修改源代码的前提下完成可观测性能力的注入。LoongSuite Go Agent 采用编译增强机制，通过预定义的埋点规则引擎，在编译阶段自动注入 Span 创建、token 消耗等统计逻辑。内置对主流开发框架的完整支持，从基础通信协议到中间件交互，从微服务治理到数据持久化，系统已覆盖包括HTTP、gRPC、数据库连接等在内的二十多个核心模块，能够自动捕获请求延迟分布、服务调用拓扑及资源竞争状态等关键指标。这种开箱即用的设计显著降低了观测体系的部署门槛，使开发者能够聚焦业务逻辑而非基础设施配置。LoongSuite Go Agent 可以精准捕获大模型调用的输入输出特征、Token 消耗模式及多轮交互的流程轨迹，为优化资源利用率提供了数据基础。目前支持的 AI Agent 开发框架包括 LangChainGo【1】，MCP Server【2】等，Eino、Ollma 等框架的支持也将陆续发布。

LoongSuite Java Agent

LoongSuite Java Agent 基于 OpenTelemetry Java Instrumentation 项目，通过字节码增强技术，为 Java 应用提供全链路的可观测性解决方案。借助对 Java 字节码的动态修改能力，实现了无需手动修改业务代码即可接入分布式追踪、指标收集和日志关联的观测体系。在极低性能开销的前提下，提供细粒度的运行时数据采集能力，适配从传统单体应用到云原生微服务的全场景观测需求。从基础的 Servlet、Spring、Dubbo 等开发框架，到 Redis、Kafka、MySQL 等中间件，再到 JVM 自身的性能指标采集，系统已覆盖超过 50+ 常用组件的自动埋点，能够自动捕获调用链路拓扑、方法执行耗时、异常堆栈及资源消耗等关键数据。这种即插即用的特性极大降低了可观测性接入的技术门槛，使开发者无需关注埋点细节即可获得全面的系统运行视图。针对高并发场景，其内置的采样策略与数据聚合机制可在保证观测精度的同时，有效控制数据量，满足生产环境的高可用性要求。目前已经在百炼大模型平台大规模生产落地，这些过程中积累的在大模型场景下数据采集的优化等方式将陆续发布到开源仓库。此外，针对常见的模型访问 SDK 如 OpenAI, DashScope 等，正在提供自动埋点支持，也欢迎社区贡献更多的插件实现。

Loongsuite 与 Spring AI Alibaba 共建 AI 应用生态建设

Spring AI 作为 Spring 生态与大模型能力融合的产物，在 Java 语言中提供了对 LLM 的抽象封装和易用的 API，同时在可观测性设计上充分拥抱 OpenTelemetry 标准，为关键调用提供了原生的可观测性能力。Spring AI Alibaba【3】是 Alibaba 在 Spring AI 项目的基础上构建的 AI Agent 开发框架，深度集成了百炼大模型平台能力，提供了如工作台、Graph 等诸多可视化的白屏能力，以及各种开箱即用的预实现 Agent。Spring AI 的核心目标是让开发者能够以 Spring 的方式快速集成和使用 AI 能力。因此像 Spring 一样，可观测性被作为重要的组成部分集成在框架内部。

在可观测性上，Spring AI 提供以下关键能力：

自动埋点：Spring AI 对所有涉及 LLM 调用、Prompt 构建、流式响应处理等关键路径进行了自动追踪埋点，并生成符合 OpenTelemetry 标准的 Span。
上下文传播：支持在调用链中自动注入和提取 Trace ID 和 Span ID，确保与上下游服务的调用链路无缝衔接。
指标导出：内置对请求延迟、token 使用量、模型响应长度等关键性能指标的采集与导出。
日志关联：通过 MDC 或结构化日志机制，将当前 Span 上下文注入到日志中，便于问题排查时进行全栈分析。

这些能力使得 Spring AI 在接入观测系统时无需额外开发即可实现完整的追踪、监控与日志联动。为了进一步提升可观测性覆盖范围并降低接入成本，Spring AI Alibaba 支持结合 LoongSuite Java Agent 进行部署。Java Agent 可以无侵入地对运行中的 JVM 应用进行字节码增强，从而实现对 Spring 框架、数据库访问、HTTP 请求等通用组件的自动埋点。

LoongSuite 项目未来规划

面对 AI Agent 众多的框架，LoongSuite 将会针对市面上的主流 AI Agent 提供全面的可观测性数据采集能力，包括 Python 生态中的低代码平台 Dify、高代码框架 AgentScope、Agno、OpenAI Agent 等主流 AI Agent 开发框架，同时也包括 Java 生态中的 Spring AI Alibaba 以及其基础之上的低代码以及 0 代码 Agent JManus 提供强有力的支撑，Golang 生态中的 Eino, Langchain4go 等等，也欢迎有兴趣参与社区的同学一起参与贡献更多的框架。
未来 Agent 会大量使用工具，多智能体的协同也将成为常态，LoongSuite 会打通 MCP 和多 Agent 通讯的观测盲区，突破 MCP token 黑洞，实现对 MCP 和 A2A 协议的可观测覆盖。
AI Agent 开发完在测试和线上运行期间都需要对 AI Agent 的行为进行充分的评估，评估的能力逐步成为 AI Agent 生命周期中不可或缺的一环，和 Spring AI Alibaba 以及 AgentScope 等项目集成，发布开源可观测追踪和评估能力控制台，形成从采集、存储到评估的 AI Agent 全周期覆盖。
实现端到端可观测能力的覆盖，打通端侧 Agent 到模型内部的整条链路，实现 AI Agent 链路完整分析和快速诊断。
LoongCollector 通过 eBPF 支持 CPU 和 GPU 场景下的 Profiling 能力，LoongSuite 也将和 SysOM【4】社区共同推出 AI 场景下的 Profiling 能力。

开源社区参与&贡献

作为全球领先的云服务商，阿里云始终致力于开源观测技术的最前沿。我们深度投身于 OpenTelemetry（OTel）社区，坚定不移地参与、支持技术开放生态的构建以及全球技术标准的制定。过去几年，阿里云在 OpenTelemetry 社区中积极推动技术共享与代码贡献，深度融入社区多个关键领域，如 Semantic Conventions（可观测标准规范建设）、Java Instrumentation（Java 探针）、Go Instrumentation（Go 探针）、Profiling（性能分析）等。截至目前，我们累计向社区贡献并合并 1000+ PR Reviews 与 400+ Pull Requests。在这一开源贡献进程中，我们成功培养出 3 位 Maintainer、5 位 Approvers、1 位 Triager 以及 8 位 Member，为社区的技术演进与生态建设注入了强劲动力。

除却技术贡献，阿里云亦全力践行开源文化所倡导的分享与合作精神，积极推动新技术与新思想的蓬勃发展。例如，我们踊跃在 KubeCon、OTel Community Day 等全球性行业会议中分享技术成果，同时在社区内发起设立了面向亚太地区的友好交流时段，有力促进了与社区的跨地域技术交流与深度合作。也欢迎更多的开发者加入OTel社区以及 LoongSuite 中。LoongSuite 开源的代码仓库如下，欢迎参与贡献：

LoongCollector:

github.com/alibaba/loo...

LoongSuite Python Agent:

github.com/alibaba/loo...

LoongSuite Go Agent:

github.com/alibaba/loo...

LoongSuite Java Agent:

github.com/alibaba/loo...

相关链接

【1】LangChainGo

github.com/tmc/langcha...

【2】MCP Server

github.com/mark3labs/m...

【3】Spring AI Alibaba

github.com/alibaba/spr...

【4】SysOM

openanolis.cn/sig/sysom