简单prometheus+grafana+pushgateway采集GPU利用率和交换机流量

1、prometheus+pushgateway

https://prometheus.io/download/下载prometheus和pushgateway

下载后修改prometheus.yaml

pushgateway需要设置honor_labels: true才能保留原来的job、instance等

然后启动:./prometheus --config.file="./prometheus.yml"

./pushgateway

访问pushgateway:http://x.x.x.x:9091

查看pushgateway数据:http://x.x.x.x:9091/metrics

注意:pushgateway只保留最后一次推送的值,prometheus拉取的时候也是拉取pushgateway当前存储的值

查看prometheus:http://x.x.x.x:9090

Status->Targets里面可以检查目标状态、上次拉取时间等

注意:http://x.x.x.x:9090/metrics并不能查看到所有表项

2、grafana

grafana安装:

apt-get install -y software-properties-common

wget -q -O - https://packages.grafana.com/gpg.key | sudo apt-key add -

add-apt-repository "deb https://packages.grafana.com/oss/deb stable main"

apt install grafana

systemctl start grafana-server

systemctl enable grafana-server

登录:http://x.x.x.x:3000

用户名密码admin admin

有的exporter源码会提供grafana配置文件,比如dcgm-exporter中:

dcgm-exporter\grafana\dcgm-exporter-dashboard.json

在Home->Dashboards->New->Import中导入json就可以看到图形

修改Y轴的单位

对应panel右上角三个点中选择Edit,Standard options,Uint中选择(忘了。。待确认)

安装dcgm-exporter

https://github.com/NVIDIA/dcgm-exporter

下载源码,然后:

kubectl create namespace gpu-monitoring

kubectl apply dcgm-exporter/service-monitor.yaml

kubectl apply dcgm-exporter/dcgm-exporter.yaml -n gpu-monitoring

创建nodeport并提交

c 复制代码
apiVersion: v1
kind: Service
metadata:
  name: dcgm-exporter
  namespace: gpu-monitoring
spec:
  selector:
    app.kubernetes.io/name: dcgm-exporter
  ports:
  - port: 9400
    targetPort: 9400
    nodePort: 30094
  type: NodePort

测试:curl http://localhost:30094/metrics

问题1:

c 复制代码
error: resource mapping not found for name: "dcgm-exporter" namespace: "" from "service-monitor.yaml": no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"
ensure CRDs are installed first

下载https://github.com/prometheus-operator/prometheus-operato,提交prometheus-operator\\prometheus-operator\\example\\prometheus-operator-crd\\monitoring.coreos.com_servicemonitors.yaml

相关推荐
咖啡啡不加糖1 小时前
Grafana 监控服务指标使用指南:打造可视化监控体系
java·后端·grafana
牛奶咖啡135 小时前
Prometheus+Grafana构建云原生分布式监控系统(十四)_Prometheus中PromQL使用(一)
云原生·prometheus·promql·计算一个时间范围内的平均值·将相同数据整合查看整体趋势·计算时间范围内的最大最小比率·向量标量的算术运算
世界尽头与你5 小时前
(修复方案)CVE-2021-43798: Grafana路径遍历漏洞
安全·grafana
牛奶咖啡131 天前
Prometheus+Grafana构建云原生分布式监控系统(十三)_Prometheus数据模型及其PromQL
云原生·prometheus·prometheus数据类型·promql使用场景·promql表达式解析·promql数据类型·监控系统的方法论与指标
AC赳赳老秦2 天前
外文文献精读:DeepSeek翻译并解析顶会论文核心技术要点
前端·flutter·zookeeper·自动化·rabbitmq·prometheus·deepseek
qq_312920113 天前
Proxmox VE 监控:把集群指标秒级推送到 InfluxDB 2.x,Grafana 大屏一步到位
运维·grafana
牛奶咖啡133 天前
Prometheus+Grafana构建云原生分布式监控系统(十二)_基于DNS的服务发现
云原生·prometheus·dns·搭建自己的dns服务器·使用bind搭建dns服务器·配置正向解析·基于dns的服务发现
A-刘晨阳4 天前
Prometheus + Grafana + Alertmanager 实现邮件监控告警及配置告警信息
运维·云计算·grafana·prometheus·监控·邮件
饺子大魔王的男人4 天前
告别服务器失联!Prometheus+Alertmanager+cpolar 让监控告警不局限于内网
运维·服务器·prometheus
电话交换机IPPBX-3CX5 天前
如何使用 Grafana 可视化你的 3CX 呼叫中心电话系统
grafana·ip pbx·电话交换机·企业电话系统