技术栈
dcgm-exporter
听说唐僧不吃肉
3 个月前
grafana
·
dcgm-exporter
监控篇之利用dcgm-exporter监控GPU指标并集成grafana大盘
当环境中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。 在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告警规则。 下文是基于开源Prometheus和DCGM Exporter实现丰富的GPU观测场景