一、概述
data:image/s3,"s3://crabby-images/db548/db548ac6de25c9e1e1d8ccde763c859ef9646be0" alt=""
prometheus,本身是一个【数据收集】和【数据处理】的工具,如果效果要监控一台服务器物理机,有两种方式,一种是在物理机上部署"node-export"来收集数据上报给prometheus,另一种是"自定义监控";
node-exporter,就是将服务器物理机的数据,收集好,不需要运维人员自己配置了,是一个比较简单的监控物理机的组件;
本节,我们就来讲述node-exporter的使用方式,及prometheus如何来查询数据;
二、被监控节点安装node-exporter
1,准备一台被监控机器
10.0.0.41 prometheus-node41 1c1g20GB
2,上传安装包
给大家准备了安装包在百度云盘
链接:https://pan.baidu.com/s/1es-MFSjp4HNzercDiY-1Cg?pwd=ctk8
提取码:ctk8
· 创建工作目录
[root@prometheus-node41 ~]# mkdir -pv /node-export/{soft,data,logs}
· 上传解压安装包
[root@prometheus-node41 soft]# rz -E
[root@prometheus-node41 soft]# tar xf node_exporter-1.6.1.linux-amd64.tar.gz
[root@prometheus-node41 soft]# ll
total 10128
drwxr-xr-x 2 1001 1002 56 Jul 17 2023 node_exporter-1.6.1.linux-amd64
-rw-r--r-- 1 root root 10368103 Nov 8 01:42 node_exporter-1.6.1.linux-amd64.tar.gz
· 创建软连接
[root@prometheus-node41 soft]# ln -sv /node-export/soft/node_exporter-1.6.1.linux-amd64 /node-export/soft/node-exporter
3,配置systemctl启动node-exporter
· 编辑启动文件
[root@prometheus-node41 soft]# cat /etc/systemd/system/node-exporter.service
[Unit]
Description=xinjizhiwa node-exporter
Documentation=https://prometheus.io/docs/introduction/overview/
After=network.target
[Service]
Restart=on-failure
ExecStart=/node-export/soft/node-exporter/node_exporter
ExecReload=/bin/kill -HUP \$MAINPID
LimitNOFILE=65535
[Install]
WantedBy=multi-user.target
· 重新加载systemd启动node-exporter
[root@prometheus-node41 soft]# systemctl daemon-reload
[root@prometheus-node41 soft]# systemctl enable --now node-exporter.service
· 检测是否启动成功
[root@prometheus-node41 soft]# netstat -tnulp
data:image/s3,"s3://crabby-images/939fe/939fe81d6de759af4fb305846b717a95563f8d35" alt=""
· 浏览器访问
10.0.0.41:9100
data:image/s3,"s3://crabby-images/22fe6/22fe6f233cb3f7a57ffaa2951a70c494f512a92b" alt=""
此时,被监控节点的node-exporter部署完毕
三、配置prometheus收集node-exporter采集的数据
1,编辑prometheus配置文件
[root@prometheus-server31 prometheus]# vim /prometheus/soft/prometheus/prometheus.yml
#抓取监控的间隔时间,多长时间获取一次数据(生产环境,建议15-30s);
scrape_interval: 3s
#多久读一次规则
evaluation_interval: 15s
#先不解释,之后会讲
alerting:
alertmanagers:
static_configs:
targets:
- alertmanager:9093
#先不讲,之后会讲
rule_files:
- "first_rules.yml"
- "second_rules.yml"
#被监控的配置
scrape_configs:
- job_name: "prometheus"
static_configs:
- targets: ["localhost:9090"]
#另起一个job名称,被监控的主体自定义名称
- job_name: "node-exporter"
static_configs:
#被监控的数据抓取地址;
- targets: ["10.0.0.41:9100"]
·【job】的配置释义
data:image/s3,"s3://crabby-images/1ad0e/1ad0e139444407c22a751627e57f3c4367ddb1ac" alt=""
·【监控地址/目标】的配置释义
data:image/s3,"s3://crabby-images/8a9fb/8a9fb948ad010da98f4bff12ea3b4c35720f82be" alt=""
2,重新加载prometheus服务
curl -X POST http://10.0.0.31:9090/-/reload
3,刷新prometheus页面
此时,就会看到,新配置的被监控项主体的指标列表;
data:image/s3,"s3://crabby-images/c4d0a/c4d0a318fc11828dcb8877a4cd287f7079463bc5" alt=""
至此,prometheus收集node-exporter的数据就配置成功;
四、PromeQL语句
我们现在已经将被监控的服务器的数据采集到了"prometheus",那么如何操作这些数据呐?
就涉及到了,prometheus操作数据的语句:【PromeQL】
data:image/s3,"s3://crabby-images/d2074/d2074a1fd434525cd6cc09700b7a4ada0739c58f" alt=""
1,了解数据的结构
想要操作数据,我们需要先知道,数据长什么样子?
· 查看数据
浏览器防备node-exporter,点击【Metrics】
data:image/s3,"s3://crabby-images/c40b6/c40b6eacac1948225ca348814de11efce224dd87" alt=""
· 数据的结构介绍
点击Metrics之后,就可以看到,node-exporter采集的数据;
数据包含结构:
1,数据类型【TYPE】
2,数据的key { 数据的value }
也就是说,数据是以key{value}的形式,展示的;
data:image/s3,"s3://crabby-images/e0d8c/e0d8c28182142df776d27f5eee391b67ee3ba101" alt=""
至于数据类型,以后再说,现在不着急;
2,PromeQL语句的简单实用
· 查看节点存活监控【up】
up #代表查看所有被监控节点是否存活
1表示存活;
0表示存活;
data:image/s3,"s3://crabby-images/d5efa/d5efaf456ec4c7ea184a34af2cd37a5ba0ca3d70" alt=""
· 查看监控指标【key{value}】
本次学习,我们查cpu作为案例;
只需要写入"关键词"就会弹出与之相关的所有字段key
data:image/s3,"s3://crabby-images/8fc0a/8fc0a7d981c2e51d65819287a38390718007c613" alt=""
data:image/s3,"s3://crabby-images/3f521/3f521712390515bc951d7e75b4a3314481290194" alt=""
筛选我们想要的cpu相关数据;
key { value,value,value }
data:image/s3,"s3://crabby-images/999c3/999c301de5b7479eebfb2923e02f14ea41912051" alt=""
筛选10s内我们想要的cpu相关数据;
key { value,value,value }[10s]
data:image/s3,"s3://crabby-images/4c3e7/4c3e72e42aa39dcc2eb21ebdfd4104efd0f8b5f3" alt=""
3,PromeQL的相关函数
· sum求和
将查询出来的数据,求和计算;
sum(key{value})
data:image/s3,"s3://crabby-images/7bb18/7bb18e1ad064e0dcfb389a419bf680ae2a0ae961" alt=""
data:image/s3,"s3://crabby-images/eadd2/eadd2c7fbcb69353b15f5c84f33ef7a9c0c8c9ae" alt=""
· increase时间段总增长量
查看1分钟内,空闲率增长量
取时间段内的起始第一个值,和最后一个值的差值,就是increase的计算方式。
increase(node_cpu_seconds_total{instance="10.0.0.41:9100",mode="idle"}[1m])
data:image/s3,"s3://crabby-images/b17f7/b17f7b00722742817e12e410b77c9e42fd590b74" alt=""
· by函数分组统计
by函数,跟mysql里面的by分组时一个意思,使用起来也几乎一样。
案例:查询所有节点的cpu空闲率,安装监控节点分组;
sum(node_cpu_seconds_total{cpu="0",mode="idle"})by(instance)
data:image/s3,"s3://crabby-images/2d7e5/2d7e54f7e033aed9a4e4b38b9ab81336950638f9" alt=""
· rate平均增量
案例:查询1分钟之内cpu的空闲值,增长量,按照每秒增长多少,求出这个值。
increase就是时间段内:【最后一个值】 - 【第一个值】
rate就是时间段内:(【最后一个值】 - 【第一个值】)/时间段
rate(node_cpu_seconds_total{cpu="0",mode="idle"}[1m])
data:image/s3,"s3://crabby-images/be7d3/be7d36996ff5579a47e9b0699750ac4f990a6db7" alt=""
· topk函数
就是把求出来的值的列表,取前几位的意思
由于本次学习,没有安装其他的监控机器,所以演示不完善,大家能明白这个意思就行了;
topk(2,rate(node_cpu_seconds_total{mode="idle"}[3m]))
data:image/s3,"s3://crabby-images/0b657/0b657fed7891af4487fbac6b1497b99220cb5e29" alt=""
· count函数-统计计数
案例:查询目前有多少个cpu监控模式(mode)
count(node_cpu_seconds_total{cpu="0"})
data:image/s3,"s3://crabby-images/b4891/b48916e27506ffb2dac5f1fb12520182152e030d" alt=""
至此,基本函数,大家就有了初步的了解;
4,PromeQL案例
求cpu的空闲率
sum(【cpu总空闲时间】)/sum(【cpu所有使用时间】)
data:image/s3,"s3://crabby-images/ee468/ee4681c4334b3fca4e37d5bb5d4ee502cc414b51" alt=""
sum(node_cpu_seconds_total{mode="idle"})/sum(node_cpu_seconds_total)*100
data:image/s3,"s3://crabby-images/a75d7/a75d734c389ed77035209e0d2088f2b07a22bb65" alt=""
至此,PromeQL的简单了解,就到这了,比较墨迹了,接下来我们先进入下一步学习,在从头回顾一下我们这个PromeQL的不懂的技术点。
五、grafana出图展示数据
data:image/s3,"s3://crabby-images/f95d8/f95d8d9a76e60a289420a29e14cb3ab87da448c8" alt=""
1,机器准备
10.0.0.71-grafana 1c1g 20GB
2,安装grafana
本次学习,给大家准备了安装包在百度云盘
链接:https://pan.baidu.com/s/1sMJrz1afPqmaW_dypUXQmA?pwd=sotw
提取码:sotw
· 上传软件包
[root@grafana71 soft]# rz -E
rz waiting to receive.
[root@grafana71 soft]# ll
total 85616
-rw-r--r-- 1 root root 87670697 Nov 8 01:42 grafana-enterprise-10.0.3-1.x86_64.rpm
· 安装grafana
[root@grafana71 soft]# yum -y localinstall grafana-enterprise-10.0.3-1.x86_64.rpm
· 启动grafana
[root@grafana71 soft]# systemctl enable --now grafana-server.service
· 检查3000端口是否监听
[root@grafana71 soft]# netstat -tnulp
data:image/s3,"s3://crabby-images/1a09a/1a09ae22913e4e1676f127ce635eb547345ddd4a" alt=""
3,浏览器访问grfana
10.0.0.71:3000
data:image/s3,"s3://crabby-images/6a07d/6a07d8206929f3720b7150dd8f54ed7dc65f1015" alt=""
登录:
账号:admin
密码:admin
· 配置数据源
就是获取prometheus的数据
【home】-【adminstration】-【data sources】-【add data-sources】-【prometheus】
data:image/s3,"s3://crabby-images/d77b6/d77b62f9a7223081577a85a60e20f54d47ef0bb3" alt=""
data:image/s3,"s3://crabby-images/45bca/45bca48c8f3a0eb609f06648634e116b7b7204df" alt=""
data:image/s3,"s3://crabby-images/b78ae/b78ae2ffdfe4e4290776d9b2cdef1d7c8dbbcbf3" alt=""
data:image/s3,"s3://crabby-images/34347/34347f33471604f64c94a5db171eff725391424f" alt=""
NAME字段,自定义一个数据源名称
server URL ,就是我们prometheus的地址+端口
data:image/s3,"s3://crabby-images/52e9f/52e9fcd03b2bb87a43a0086e4f153dca1d869a54" alt=""
点击save&test
data:image/s3,"s3://crabby-images/f10b9/f10b96ffeb46164a9f0a3ae83e47d13f8b9fe4a7" alt=""
至此,数据源配置完毕;
· 新建仪表盘
【home】-【dashboards】-【new】-【new folder】
data:image/s3,"s3://crabby-images/e1926/e19262e4a80e1a9682faff936f8859ea1059e937" alt=""
data:image/s3,"s3://crabby-images/ba0e0/ba0e08bc9fb170da162ddbd2482fe690a2d9d5f3" alt=""
data:image/s3,"s3://crabby-images/7d9ce/7d9ce9581ee2df85a2ea6091f1e3307513979035" alt=""
创建一个新的folder
data:image/s3,"s3://crabby-images/7de0a/7de0ab257e14db60ab5b68589ac5242af8c6da8a" alt=""
进入目录后,创建仪表盘
【create dashboard】
data:image/s3,"s3://crabby-images/69293/6929301d3a1494ca11ba463a94289a9dfc644ef1" alt=""
选择数据源
【Add visualization】
data:image/s3,"s3://crabby-images/921b9/921b9ee32fff241b2813b1cb23e017b08e849a43" alt=""
选择刚刚添加的数据源
data:image/s3,"s3://crabby-images/0dd9b/0dd9b176cb7597c9f91d684dd364a19f06fa3bc8" alt=""
此时进入到,仪表盘的编辑页面;
· 创建一个数据展示图
1,测试代码
第一步,测试代码,就是计算一个cpu使用率的PromeQL代码;
测试没问题,就复制;
2,写入grafana图形
(1-sum(node_cpu_seconds_total{mode="idle"})/sum(node_cpu_seconds_total))*100
data:image/s3,"s3://crabby-images/5f11b/5f11b462e0299004f5f9680fd8f99dacad407f0a" alt=""
data:image/s3,"s3://crabby-images/795d0/795d00b26f45c72ae53b6cf5a5f641180fdcb275" alt=""
4,下载开源的仪表盘
#grafana官网查询dashboard模板id
· 搜索找到想要的仪表盘
data:image/s3,"s3://crabby-images/c26f3/c26f36a862ad34710c27f7db61713949eb26f254" alt=""
· 下载仪表盘
data:image/s3,"s3://crabby-images/74f6d/74f6d157fd6779466170e3b713d834e835e5b74b" alt=""
· 上传仪表盘json文件到grafana
【home】-【dashboard】-【new】-【import】
data:image/s3,"s3://crabby-images/08a45/08a45da5d4261fe61901c365902d2b066ec6fb5a" alt=""
上传json文件
data:image/s3,"s3://crabby-images/47193/471937343915cacb56878a47ccd5ed2a866dfc3c" alt=""
保存
data:image/s3,"s3://crabby-images/93624/936241c78d15a0ebccc3b7c848a028e8dc0feb7f" alt=""
· 回到自己的dashboard列表点进去查看
data:image/s3,"s3://crabby-images/b8633/b86331ca29cad7f79081a8ee7ae7c477578ae295" alt=""
至此,我们的服务器节点监控,学习完毕。