技术栈
gpu服务器监控
杰克逊的日记
20 天前
prometheus
·
gpu算力
·
gpu服务器监控
通过Prometheus对GPU集群进行监控以及搭建(小型集群)
一、本文用通用的「Prometheus+Grafana+DCGM对GPU集群进行监控DCGM(Data Center GPU Manager)是 NVIDIA 官方工具,dcgm-exporter 负责将 GPU 指标转换为 Prometheus 可识别的格式,是 GPU 监控的核心采集组件。
我是有底线的