gpu 容量误分配

在 Kubernetes 集群中,"nvidia.com/gpu": "10" 表示节点 su2070 向集群报告的可分配 GPU 资源数量为 10 个。

不过,结合你提供的 nvidia-smi 输出可以发现,该节点实际只配备了 1 块 NVIDIA GeForce RTX 2070 显卡。这种数值不匹配通常是由以下原因导致的:

  1. GPU 资源配置问题:可能是通过 Kubernetes 设备插件(如 NVIDIA GPU Operator)配置时,误将 GPU 资源数量设置为 10。这通常与 GPU 分片、MIG(多实例 GPU)配置有关,但你的显卡(RTX 2070)并不支持 MIG 功能。
  1. 配置错误:可能是在安装 NVIDIA 设备插件时,通过配置参数(如 NVIDIA_VISIBLE_DEVICES 或自定义资源配置)错误地设置了可分配 GPU 数量。
  1. 插件版本或配置问题:NVIDIA GPU Operator 或相关设备插件可能存在配置错误,导致错误报告 GPU 数量。

要解决这个问题,建议检查:

  • NVIDIA GPU Operator 的配置
  • 节点上的设备插件配置
  • 确认显卡是否支持分片或 MIG(RTX 2070 不支持)

正确配置后,nvidia.com/gpu 的值应与实际物理 GPU 数量一致(即应为 1)。

相关推荐
陈随易11 小时前
编程语言级别的Skill市场,AI Agent 的未来形态
前端·后端·程序员
IT_陈寒13 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
子兮曰14 小时前
Agency-Agents 深度解析:400+ AI 专家的"梦之队"如何重塑开发工作流
前端·后端·vibecoding
用户83562907805114 小时前
Python 实现 PDF 文件加密与解密方法
后端·python
小满zs14 小时前
Go语言第二章(小无相功)
后端·go
用户83562907805114 小时前
使用 Python 冻结与拆分 Excel 窗格教程
后端·python
karry_k15 小时前
MyBatis批量insert-select踩坑:useGeneratedKeys=true 可能让PostgreSQL返回大量插入结果
java·后端
妙码生花15 小时前
从 PHP 到 AI + Golang,程序员自救转型手记(十九):点选验证码代码逐行目检
前端·后端·go
贰先生15 小时前
Xiuno BBS X版 用户封禁系统
后端
karry_k15 小时前
PostgreSQL 在 MyBatis 中执行正常 SQL 失效:一次 DELETE USING 踩坑记录
java·后端