作者介绍:简历上没有一个精通的运维工程师。请点击上方的蓝色《运维小路》关注我,下面的思维导图也是预计更新的内容和当前进度(不定时更新)。

我们上一章介绍了Docker基本情况,目前在规模较大的容器集群基本都是Kubernetes,但是Kubernetes涉及的东西和概念确实是太多了,而且随着版本迭代功能在还增加,笔者有些功能也确实没用过,所以只能按照我自己的理解来讲解。
我们在讲解kubectl的命令的时候讲过一个参数top,可以查看我们集群的监控信息,但是这个命令默认无法使用,因为还没有安装监控组件。虽然这个Prometheus组件部署以后这个指令还是不可用。但是我们可以通过这个Prometheus监控来看到这些资源使用情况。
csharp
[root@master01 ]# kubectl top node
error: Metrics API not available
[root@master01 ]#
我们部署任何一个服务,他都有可能出现问题,所以我们不仅需要在架构上保证他的高可用,同时也需要及时监控他的异常,避免出现问题而未及时发现,造成更大的异常从而触发业务故障。
在互联网早期的监控三件套:Nagios、Zabbix和Cacti ,到目前为止还有用的估计也就Zabbix。但是这个监控三件套都是传统监控项目,对目前的容器监控几乎没有对应的规则来适应。所以我们这里监控都不是以上几种。

目前在Kubernetes集群的监控里面Prometheus已经是事实上的标准,所以我们的的监控也是基于他来讲解的。****
Prometheus 是一款开源的云原生监控与警报工具 ,由 SoundCloud 团队开发并于 2016 年加入 CNCF(云原生计算基金会),现已成为 Kubernetes 生态中监控领域的 事实标准。其设计专为动态、分布式环境(如容器化、微服务架构)优化,具备高效的数据采集、存储、查询及告警能力。
一、核心特性
- 多维数据模型
-
基于 指标名称(Metric Name) 和 键值对标签(Labels) 标识时间序列数据,支持灵活的查询和聚合。
-
示例:
http_requests_total{method="POST", status="200"}
表示 HTTP POST 请求且状态码为 200 的计数器。
- 高效的查询语言(PromQL)
-
提供强大的实时查询功能,支持聚合、切片、预测等操作。
-
示例:统计每秒请求量:
rate(http_requests_total[5m])
。
- 拉取(Pull)模型
-
Prometheus 主动从目标服务 拉取指标数据(通过 HTTP 协议),适合动态环境(如 Kubernetes)。
-
支持通过 Pushgateway 接收短生命周期任务的推送(Push)数据。
- 服务发现
- 自动发现监控目标,支持 Kubernetes、Consul、AWS 等平台,减少手动配置。
- 可视化与告警
-
内置 Web UI 和 Grafana 集成,提供仪表盘。
-
通过 Alertmanager 实现告警的分组、去重、静默和通知(邮件、Slack 等)。
- 存储与扩展性
-
本地存储采用时间序列数据库(TSDB),支持高效压缩。
-
可通过远程存储(如 Thanos、Cortex)扩展长期存储和高可用性。
二、架构组件
- Prometheus Server
-
核心服务,负责数据采集、存储、查询和告警规则评估。
-
从 Exporters 或应用程序暴露的
/metrics
端点拉取数据。
- Exporters
-
将第三方系统(如 MySQL、Node.js、硬件)的指标转换为 Prometheus 格式。
-
常用 Exporters:Node Exporter(主机监控)、Blackbox Exporter(网络探测)、JMX Exporter(Java 应用)。
- Pushgateway
- 临时存储短暂任务(如批处理作业)推送的指标数据,供 Prometheus 拉取。
- Alertmanager
- 处理 Prometheus 触发的告警,进行分组、抑制、静默,并发送通知。
- Client Libraries
- 提供多种语言(Go、Java、Python 等)的 SDK,用于在应用中直接暴露指标。
三、数据模型
-
指标(Metric) :由名称和标签唯一标识的时间序列,例如
cpu_usage{instance="server1", job="web"}
。 -
样本(Sample) :时间戳 + 指标值,如
(1625097600, 75.3)
。 -
类型:
-
Counter:单调递增的计数器(如请求总数)。
-
Gauge:瞬时值(如内存使用量)。
-
Histogram 和 Summary:统计样本分布(如响应时间分位数)。
简单理解Prometheus通过记录各种监控数据在不同时间段的值,然后通过这些值,我们可以获得集群的运行状态,然后设置对应的阈值进行报警。
运维小路
一个不会开发的运维!一个要学开发的运维!一个学不会开发的运维!欢迎大家骚扰的运维!
关注微信公众号《运维小路》获取更多内容。