gpu 容量误分配

在 Kubernetes 集群中,"nvidia.com/gpu": "10" 表示节点 su2070 向集群报告的可分配 GPU 资源数量为 10 个。

不过,结合你提供的 nvidia-smi 输出可以发现,该节点实际只配备了 1 块 NVIDIA GeForce RTX 2070 显卡。这种数值不匹配通常是由以下原因导致的:

  1. GPU 资源配置问题:可能是通过 Kubernetes 设备插件(如 NVIDIA GPU Operator)配置时,误将 GPU 资源数量设置为 10。这通常与 GPU 分片、MIG(多实例 GPU)配置有关,但你的显卡(RTX 2070)并不支持 MIG 功能。
  1. 配置错误:可能是在安装 NVIDIA 设备插件时,通过配置参数(如 NVIDIA_VISIBLE_DEVICES 或自定义资源配置)错误地设置了可分配 GPU 数量。
  1. 插件版本或配置问题:NVIDIA GPU Operator 或相关设备插件可能存在配置错误,导致错误报告 GPU 数量。

要解决这个问题,建议检查:

  • NVIDIA GPU Operator 的配置
  • 节点上的设备插件配置
  • 确认显卡是否支持分片或 MIG(RTX 2070 不支持)

正确配置后,nvidia.com/gpu 的值应与实际物理 GPU 数量一致(即应为 1)。

相关推荐
IT_陈寒8 分钟前
SpringBoot性能翻倍秘籍:5个90%开发者不知道的JVM调优实战技巧
前端·人工智能·后端
再吃一根胡萝卜36 分钟前
🔐 跨域(CORS)与 CSRF:你以为的安全,真的安全吗?
后端
Goboy42 分钟前
登录机制五兄弟,关系乱到我怀疑人生!
后端·面试·架构
再吃一根胡萝卜1 小时前
跨域本身其实是一种浏览器提供的安全机制,那如果后端主动允许跨域访问,会不会带来安全隐患?
后端
再吃一根胡萝卜1 小时前
CSRF 攻击与防护
后端
东百牧码人1 小时前
将 Ocelot 与 Serilog 和 Loki 集成可以实现强大的日志收集和分析能力
后端
_風箏1 小时前
SpringBoot【集成generator】代码生成+knife4j接口文档(2种模板设置、逻辑删除、字段填充 含代码粘贴可用)保姆级教程
数据库·后端
MaxHua1 小时前
微服务认证授权进阶指南:从基础方案到零信任架构
后端·面试
MrSYJ2 小时前
学完涨工资的技巧1:Spring Authorization Server如何做到只处理oauth相关请求
java·后端·spring cloud
LSTM972 小时前
使用Java读取Word文档:实战指南
后端