gpu 容量误分配

在 Kubernetes 集群中,"nvidia.com/gpu": "10" 表示节点 su2070 向集群报告的可分配 GPU 资源数量为 10 个。

不过,结合你提供的 nvidia-smi 输出可以发现,该节点实际只配备了 1 块 NVIDIA GeForce RTX 2070 显卡。这种数值不匹配通常是由以下原因导致的:

  1. GPU 资源配置问题:可能是通过 Kubernetes 设备插件(如 NVIDIA GPU Operator)配置时,误将 GPU 资源数量设置为 10。这通常与 GPU 分片、MIG(多实例 GPU)配置有关,但你的显卡(RTX 2070)并不支持 MIG 功能。
  1. 配置错误:可能是在安装 NVIDIA 设备插件时,通过配置参数(如 NVIDIA_VISIBLE_DEVICES 或自定义资源配置)错误地设置了可分配 GPU 数量。
  1. 插件版本或配置问题:NVIDIA GPU Operator 或相关设备插件可能存在配置错误,导致错误报告 GPU 数量。

要解决这个问题,建议检查:

  • NVIDIA GPU Operator 的配置
  • 节点上的设备插件配置
  • 确认显卡是否支持分片或 MIG(RTX 2070 不支持)

正确配置后,nvidia.com/gpu 的值应与实际物理 GPU 数量一致(即应为 1)。

相关推荐
计算机程序设计小李同学1 天前
基于 Spring Boot + Vue 的龙虾专营店管理系统的设计与实现
java·spring boot·后端·spring·vue
Charlie_lll1 天前
力扣解题-[3379]转换数组
数据结构·后端·算法·leetcode
VX:Fegn08951 天前
计算机毕业设计|基于springboot + vue云租车平台系统(源码+数据库+文档)
数据库·vue.js·spring boot·后端·课程设计
汤姆yu1 天前
2026基于springboot的在线招聘系统
java·spring boot·后端
计算机学姐1 天前
基于SpringBoot的校园社团管理系统
java·vue.js·spring boot·后端·spring·信息可视化·推荐算法
hssfscv1 天前
Javaweb学习笔记——后端实战8 springboot原理
笔记·后端·学习
咚为1 天前
Rust tokio:Task ≠ Thread:Tokio 调度模型中的“假并发”与真实代价
开发语言·后端·rust
Anastasiozzzz1 天前
对抗大文件上传---分片加多重Hash判重
服务器·后端·算法·哈希算法
Vivienne_ChenW1 天前
DDD领域模型在项目中的实战
java·开发语言·后端·设计模式
女王大人万岁1 天前
Go标准库 sync 详解
服务器·开发语言·后端·golang