随着 KubeSphere 企业版 4.2.0 的正式发布,全新的 WizTelemetry 可观测平台 2.0 也同步亮相,作为该版本的重磅升级模块之一,引发了开发者与运维团队的高度关注。本文为 WizTelemetry 可观测平台系列解读的第一篇,我们将从整体架构与核心能力入手,带你全面理解 2.0 的技术进化路径与企业价值落地方式。
一、平台概述
WizTelemetry 是面向企业级多租户、多集群场景设计的可观测平台,致力于为云原生环境提供全栈可观测性解决方案,包含监控、告警、日志、通知、链路追踪和网络可观测等功能。平台以"一体化智能监控"为核心,通过多层次数据融合和智能分析,助力企业实现基础设施至应用服务的端到端可视化运维。
核心能力
- 多维数据采集:支持收集各种可观测相关的数据,包括日志、审计、事件、指标、链路追踪等,并进行集中存储。
- 多维度告警:支持根据多种数据进行告警如指标、日志、审计、事件等,快速发现集群的异常。
- 仪表盘:提供丰富的仪表盘,多维度展示提供关键指标和状态。同时支持用户自定义仪表盘,实时展示各种可观测数据,支持多种可视化形式。
- 调用链追踪:能够精确追踪请求在服务间的调用,帮助分析性能瓶颈和故障点。支持跨集群的链路追踪。
- 性能分析:支持对服务调用的性能分析,提供详细的响应时间、错误率等数据,用于优化服务性能。
- 集中式日志管理:支持多种日志存储,ElasticSearch、OpenSearch、Loki 等,实现日志的集中收集、存储和分析。
- 安全监控:实时捕捉系统活动,发现潜在安全风险。
- 基于 eBPF 的网络可观测能力:利用 eBPF 的内核级数据采集能力,实现对网络流量的实时监控。
WizTelemetry 可观测平台2.0 以开箱即用、高扩展性为设计原则,助力企业构建稳定、高效的数字化运维体系。
二、2.0 与 1.0 的主要区别
2.1 整合所有可观测能力
WizTelemetry 可观测平台 2.0 全面整合了 KubeSphere 中的各类可观测组件,用户可以更集中地使用各种可观测能力。

2.2 全新的全局资源监控页面
· 监控资源多角度下钻

支持按逻辑和物理维度对资源进行深度下钻分析:
- 逻辑路径:集群 → 企业空间 → 项目 → 工作负载 → 容器组
- 物理路径:集群 → 节点 → 容器组
- 支持跳过中间层级,灵活查看任意维度资源。
· 多维度资源使用排行

在原 Whizard 可观测中心基础上扩展更多排行维度:
- 集群排行、企业空间排行、项目排行、节点排行、容器组排行
- 支持在某一层级内查看下属资源的使用排行(如某集群下的项目排行等)
- 包括工作负载和容器粒度的使用排行视图。
· 企业空间跨集群监控

支持在企业空间监控视图中,统一展示该空间下多个集群的资源使用情况,突破单集群数据限制。
· 跨集群 Pod 检索能力

支持跨集群 对 Pod 名称、IP 地址、项目、节点等模糊检索,方便定位 Pod。
· 更多监控视图新增
新增容器组资源用量与配额对比、磁盘吞吐、网络丢包、Kubelet 健康状态等视图,持续扩展中。
2.3 链路追踪增强

- 多协议的链路数据收集:支持通过多种协议(OpenTelemetry、Jaeger、Zipkin)收集链路数据,并进行集中存储,支持通过各种维度对链路数据进行查询。
- 零代码监测:支持自动捕获应用的链路数据,无需修改代码。支持 .NET, Java, Node.js, Python, 和 Go 语言。
- 服务拓扑生成:根据链路数据自动生成服务拓扑,支持跨集群的链路追踪,支持自动关联工作负载。
2.4 网络可观测(基于 eBPF)

-
全景网络拓扑:通过捕获和分析四层网络流量,自动构建整个基础设施的网络拓扑图,对基础设施的整体连接情况进行可视化,帮助运维人员快速识别网络瓶颈和异常。
-
全景服务拓扑:基于对七层 HTTP 流量的解析,构建服务级别的拓扑视图,为开发和运维团队提供了业务视角的可观测性,帮助团队理解服务间的交互模式和性能特征。
-
服务性能监控: 支持对单个服务进行性能监控,包括:
- RED 指标展示: RPS, Duration 和 Error Rate
- HTTP 响应数据吞吐量
- 服务的最慢路由 TOP 10
-
HTTP 流量日志:通过对连接的跟踪和 HTTP 协议的解析,构建详细的请求和响应信息日志(full-body)。
三、结语
WizTelemetry 可观测平台 2.0 不仅实现了功能上的全方位升级,更注重用户体验、系统可维护性与平台扩展能力,奠定其在 KubeSphere 生态中核心可观测能力平台的地位。
未来,我们将继续倾听用户声音,持续优化平台能力,敬请期待!