技术栈

dcgm-exporter

听说唐僧不吃肉
10 个月前
grafana·dcgm-exporter
监控篇之利用dcgm-exporter监控GPU指标并集成grafana大盘当环境中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。 在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告警规则。 下文是基于开源Prometheus和DCGM Exporter实现丰富的GPU观测场景