新一代云原生可观测平台之CCE服务监控篇

在云原生容器化浪潮的当下，监控是确保业务稳定性最受关注的问题之一。那么，华为云 CCE 容器服务又是如何帮助用户提高运维效率呢？

半年来，CCE 容器服务的运维团队持续拜访用户，并总结用户在云原生运维场景下的痛点问题，主要有以下三大痛点问题：

搭建云原生集群监控系统涉及的配置项多，包括集群自身的组件、资源的监控、业务组件的监控等，技术门槛较高。
云原生场景下的监控指标涵盖五大类，近数十万项，同时不同类型指标之间相互关联，传统监控难以将这些信息可视化。
Promtheus 已成为业界云原生监控的事实标准。但开源方案在商用场景下仍存在一些非功能性问题，尤其是海量监控指标带来的高资源消耗，导致成本显著增加。

图1 云原生运维的痛点问题

基于上述几个痛点，华为云 CCE 联合 AOM 服务团队从开箱即用：一键启用容器监控能力 、 全景观测：多维度全场景监控视图 、 开源增强：兼容开源 Promtheus，全方位能力提升等维度共同打造新一代云原生监控平台，为用户提供更加方便快捷的运维手段。

开箱即用：一键启用容器监控能力

为了方便用户快速触达监控中心，我们对开启监控中心的步骤进行了极致的简化，并将 AOM 服务上的监控信息整合到 CCE 的监控中心。现在，只需前往监控中心一键开启，即可在集群监控中心中查看容器基础资源、Kubernetes 资源对象和 Kubernetes 服务组件的监控指标。

图2 创建集群时开通监控中心

图3 监控中心一键开通

全景观测：多维度全场景监控视图

CCE 监控中心提供集群内涵盖基础资源、K8s 资源对象、K8s 服务组件、K8s 集群 Node、云原生上层业务等五大类，总计近数十万项指标的全景可观测能力，致力打造一站式运维的极致体验。

集群健康总览：监控中心首页会呈现整个集群中关键的控制面组件信息、资源占用最高的组件等，能让您对集群的健康情况一目了然。

图4 集群健康总览

资源健康总览：监控中心提供了节点、工作负载、Pod 等 Kubernetes 资源的独立监控页面。资源监控页面中提供资源的基本监控信息，并且能够纵览对应的资源概况，快速发现异常对象。

图5 资源健康总览

关联资源一屏可见：在监控中心中，在资源监控详情页中能看到关联资源的监控详情，并且可以方便的进行跳转查看（如在看节点监控时可以下钻至节点上的 Pod ，查看 Pod 的监控）。

图6 资源监控详情页

监控大盘：监控中心中提供了丰富的监控大盘，从集群、Node、控制组件等不同的视角呈现集群的健康状态。

图7 监控中心仪表盘

开源增强：兼容开源 Promtheus，全方位能力提升

Prometheus 是CNCF社区推荐的云原生监控方案，也是业界云原生监控的事实标准，它的服务发现、时序数据等能力能够很好地解决云原生场景下多变、海量数据的问题。同时，Prometheus 也是用户使用最多的监控工具。

为了更好地符合用户的使用习惯，降低学习成本，CCE 提供基于 Prometheus 开源生态能力的监控组件，兼容 Prometheus 的开源配置，同时在开源能力基础上对安全、性能、安装部署等方面做了商用增强。

在安全上，使用防护能力更强的华为自研的加密算法，对 Prometheus 使用的敏感信息进行加密；在性能上，一方面对监控指标进行分层管理，满足不同类型用户的监控诉求，另一方面，降低本地存储数据的时效，有效地降低了用户的资源消耗；在安装部署上，需要用户配置的参数由30+优化至0配置一键安装。

除此之外，针对 Prometheus 在海量数据下资源消耗巨大的问题，我们还提供了托管 Prometheus+轻量化采集 Agent 的解决方案，用户侧仅需要负担轻量化采集 Agent 的资源即可支持海量指标监控，同时大大降低了用户的运维复杂度。我们非常期待本期带来的监控中心能力能够有效地提升您的运维体验，同时我们也会对监控中心进行持续的优化。期待您的使用以及宝贵的改进意见。

后续我们还会有其他运维特性的介绍，如告警中心，健康诊断、日志中心等，敬请期待。

服务体验请访问

www.huaweicloud.com/product/cce...