Prometheus + Grafana监控平台-显卡集群监控

工作中有需要监控大量算力卡的需求,所以进行Prometheus + Grafana监控平台的部署搭建:

一:首先需要部署nvidia的显卡监控工具DCGM Exporter,先安装docker服务,再拉取必要的镜像

bash 复制代码
docker pull nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04  
docker pull prom/prometheus
docker pull grafana/grafana

二:部署DCGM Exporter,我的服务器在内网,所以先将镜像文件导入docker服务

bash 复制代码
docker load -i dcgm-exporter.tar
sudo docker run --pid=host --privileged -e DCGM_EXPORTER_INTERVAL=60000 --gpus all --restart=always -d -p 9400:9400 --name dcgm-exporter nvcr.io/nvidia/k8s/dcgm-exporter:3.0.4-3.0.0-ubuntu20.04 

直接启动可能会报错,could not select driver with capabilities\[gpu],这是因为 Docker 容器运行时无法识别 GPU 设备, 简单来说,Docker 本身不认识 --gpus all 这个参数,它需要 NVIDIA 提供的容器工具包来充当"翻译官",所以还需要下载相关的依赖包,这里注意要下载与服务器操作系统版本相适配的rpm包版本,下载的版本过高可能会报其他的依赖错误导致安装失败

bash 复制代码
sudo yum install -y --downloadonly --downloaddir=./nvidia-con nvidia-container-toolkit-1.16.2-1 libnvidia-container-tools-1.16.2-1 libnvidia-container1-1.16.2-1

cd nvidia-con && rpm -ivh *.rpm

现在再运行DCGM Exporter 容器后,容器启动正常

三:部署Prometheus,先将镜像导入内网服务器中

bash 复制代码
docker load -i prometheus.tar
mkdir -p /home/prometheus
cd /home/prometheus

cat > prometheus/prometheus.yml << 'EOF'
global:
  scrape_interval: 15s      # 数据采集间隔

scrape_configs:
  # 1. 监控 Prometheus 自身
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']

  # 2. 监控 NVIDIA GPU 数据 (刚刚部署的 dcgm-exporter)
  - job_name: 'nvidia-gpu'
    static_configs:
      - targets: ['localhost:9400']
EOF

创建 Docker Compose 启动文件 (docker-compose.yml)

bash 复制代码
cat > docker-compose.yml << 'EOF'
version: '2.2'
services:
  prometheus:
    image: prom/prometheus:latest
    container_name: prometheus
    restart: always
    ports:
      - "9090:9090"
    volumes:
      - ./prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
      - prometheus_data:/prometheus
    command:
      - '--config.file=/etc/prometheus/prometheus.yml'
      - '--storage.tsdb.path=/prometheus'
      - '--storage.tsdb.retention.time=30d'  # 数据保留30天
      - '--web.enable-lifecycle'             # 支持配置热重载
volumes:
  prometheus_data:
EOF

docker-compose up -d  #启动容器

查看容器运行状态,测试prometheus接口,查看prometheus服务页面

在浏览器中访问 http://<服务器IP>:9090,在顶部的查询框中输入 DCGM_FI_DEV_GPU_UTIL,如果能查到图表或数据,说明 Prometheus 已经成功对接了 GPU 监控

四 Grafana部署,首先导入镜像,创建应用目录

bash 复制代码
docker load -i grafana.tar
mkdir -p /home/grafana/{data,provisioning/datasources}
cd /home/grafana

创建 Docker Compose 文件 (docker-compose.yml)

bash 复制代码
version: '2.2'
services:
  grafana:
    image: grafana/grafana:latest
    container_name: grafana
    restart: always
    ports:
      - "3000:3000"
    volumes:
      - ./grafana/data:/var/lib/grafana      # 数据持久化
      - ./grafana/provisioning:/etc/grafana/provisioning # 自动配置数据源
    environment:
      - TZ=Asia/Shanghai                     # 设置时区
      - GF_SECURITY_ADMIN_PASSWORD=admin123  # 初始化密码(建议修改)
    user: "472"                              # 防止权限问题

然后还需要将data目录的权限改为472,否则容器启动会报错,启动容器后可以看到系统也,页面

bash 复制代码
chown -R 472:472 /home/grafana/data

NVIDIA DCGM Exporter Dashboard | Grafana Labs,下载监控模板文件,然后到内网平台上上传

选择Prometheus数据源,然后配置Prometheus的IP和端口,就可以查看显卡状态了

相关推荐
SRETalk9 天前
Zabbix、Prometheus、Grafana、Nightingale,四个监控如何选型?
zabbix·grafana·prometheus·nightingale
虚无境17 天前
如何编写一个SpringBoot项目告警推送的Starter
java·prometheus·webhook
睡不醒男孩03082318 天前
云原生运维实战:高并发架构下的云原生可观测性、韧性降级与自动化干预体系
数据库·kubernetes·高并发·prometheus·devops·sre·缓存调优
心之伊始19 天前
Spring Boot Actuator + Micrometer 实战:自定义业务指标并接入 Prometheus 观测接口耗时
java·spring boot·prometheus·actuator·micrometer
何中应20 天前
Grafana面板没有数据问题排查
linux·grafana·prometheus
爱吃龙利鱼20 天前
K8s 监控实战:victoria-metrics-k8s-stack 高可用部署,资源占用直降 70%,比 Prometheus 省 5 倍磁盘
docker·kubernetes·prometheus
就改了20 天前
微服务指标监控一站式搭建:Prometheus抓取+Grafana大屏展示详解
微服务·grafana·prometheus
江南风月20 天前
WGCLOUD保姆级教程最新版整理
运维·zabbix·运维开发·prometheus·日志审计
江南风月20 天前
Hermes Agent 接入WGCLOUD实战:打造团队 AI 智能运维解决方案
运维·zabbix·运维开发·prometheus