gpu 容量误分配

在 Kubernetes 集群中,"nvidia.com/gpu": "10" 表示节点 su2070 向集群报告的可分配 GPU 资源数量为 10 个。

不过,结合你提供的 nvidia-smi 输出可以发现,该节点实际只配备了 1 块 NVIDIA GeForce RTX 2070 显卡。这种数值不匹配通常是由以下原因导致的:

  1. GPU 资源配置问题:可能是通过 Kubernetes 设备插件(如 NVIDIA GPU Operator)配置时,误将 GPU 资源数量设置为 10。这通常与 GPU 分片、MIG(多实例 GPU)配置有关,但你的显卡(RTX 2070)并不支持 MIG 功能。
  1. 配置错误:可能是在安装 NVIDIA 设备插件时,通过配置参数(如 NVIDIA_VISIBLE_DEVICES 或自定义资源配置)错误地设置了可分配 GPU 数量。
  1. 插件版本或配置问题:NVIDIA GPU Operator 或相关设备插件可能存在配置错误,导致错误报告 GPU 数量。

要解决这个问题,建议检查:

  • NVIDIA GPU Operator 的配置
  • 节点上的设备插件配置
  • 确认显卡是否支持分片或 MIG(RTX 2070 不支持)

正确配置后,nvidia.com/gpu 的值应与实际物理 GPU 数量一致(即应为 1)。

相关推荐
paishishaba27 分钟前
JAVA面试复习笔记(待完善)
java·笔记·后端·面试
Victor3561 小时前
Redis(72)Redis分布式锁的常见使用场景有哪些?
后端
Victor3561 小时前
Redis(73)如何处理Redis分布式锁的死锁问题?
后端
程序员爱钓鱼3 小时前
Python编程实战 · 基础入门篇 | Python的缩进与代码块
后端·python
earthzhang20216 小时前
第3讲:Go垃圾回收机制与性能优化
开发语言·jvm·数据结构·后端·性能优化·golang
thinktik9 小时前
AWS EKS 集成Load Balancer Controller 对外暴露互联网可访问API [AWS 中国宁夏区]
后端·kubernetes·aws
追逐时光者9 小时前
将 EasySQLite 解决方案文件格式从 .sln 升级为更简洁的 .slnx
后端·.net
驰羽9 小时前
[GO]GORM 常用 Tag 速查手册
开发语言·后端·golang
AntBlack10 小时前
虽迟但到 :盘一盘 SpringAI 现在发展得怎么样了?
后端·spring·openai
ss27311 小时前
手写Spring第4弹: Spring框架进化论:15年技术变迁:从XML配置到响应式编程的演进之路
xml·java·开发语言·后端·spring