gpu 容量误分配

在 Kubernetes 集群中,"nvidia.com/gpu": "10" 表示节点 su2070 向集群报告的可分配 GPU 资源数量为 10 个。

不过,结合你提供的 nvidia-smi 输出可以发现,该节点实际只配备了 1 块 NVIDIA GeForce RTX 2070 显卡。这种数值不匹配通常是由以下原因导致的:

  1. GPU 资源配置问题:可能是通过 Kubernetes 设备插件(如 NVIDIA GPU Operator)配置时,误将 GPU 资源数量设置为 10。这通常与 GPU 分片、MIG(多实例 GPU)配置有关,但你的显卡(RTX 2070)并不支持 MIG 功能。
  1. 配置错误:可能是在安装 NVIDIA 设备插件时,通过配置参数(如 NVIDIA_VISIBLE_DEVICES 或自定义资源配置)错误地设置了可分配 GPU 数量。
  1. 插件版本或配置问题:NVIDIA GPU Operator 或相关设备插件可能存在配置错误,导致错误报告 GPU 数量。

要解决这个问题,建议检查:

  • NVIDIA GPU Operator 的配置
  • 节点上的设备插件配置
  • 确认显卡是否支持分片或 MIG(RTX 2070 不支持)

正确配置后,nvidia.com/gpu 的值应与实际物理 GPU 数量一致(即应为 1)。

相关推荐
-大头.11 分钟前
Spring Bean作用域深度解析与实战
java·后端·spring
疯狂的程序猴17 分钟前
APP上架苹果应用商店经验教训与注意事项
后端
毕设源码-钟学长19 分钟前
【开题答辩全过程】以 基于springboot农科所农作物信息管理系统的设计与实现为例,包含答辩的问题和答案
java·spring boot·后端
i***512620 分钟前
springboot整合libreoffice(两种方式,使用本地和远程的libreoffice);docker中同时部署应用和libreoffice
spring boot·后端·docker
bcbnb30 分钟前
uni-app 上架到 App Store 的项目流程,构建、打包与使用开心上架(Appuploader)上传
后端
bcbnb1 小时前
iOS 性能优化的系统化路径 从渲染到系统行为的多工具协同优化实践
后端
b***66611 小时前
Spring Boot 整合 Apollo 配置中心实战
java·spring boot·后端
AutoMQ1 小时前
如何选择合适的 Diskless Kafka
后端·架构·github
b***66611 小时前
前端的dist包放到后端springboot项目下一起打包
前端·spring boot·后端
大吱佬1 小时前
GO 八股整理(自用)
开发语言·后端·golang