gpu 容量误分配

bobz9652025-08-31 12:10

在 Kubernetes 集群中，"nvidia.com/gpu": "10" 表示节点 su2070 向集群报告的可分配 GPU 资源数量为 10 个。

不过，结合你提供的 nvidia-smi 输出可以发现，该节点实际只配备了 1 块 NVIDIA GeForce RTX 2070 显卡。这种数值不匹配通常是由以下原因导致的：

GPU 资源配置问题：可能是通过 Kubernetes 设备插件（如 NVIDIA GPU Operator）配置时，误将 GPU 资源数量设置为 10。这通常与 GPU 分片、MIG（多实例 GPU）配置有关，但你的显卡（RTX 2070）并不支持 MIG 功能。

配置错误：可能是在安装 NVIDIA 设备插件时，通过配置参数（如 NVIDIA_VISIBLE_DEVICES 或自定义资源配置）错误地设置了可分配 GPU 数量。

插件版本或配置问题：NVIDIA GPU Operator 或相关设备插件可能存在配置错误，导致错误报告 GPU 数量。

要解决这个问题，建议检查：

NVIDIA GPU Operator 的配置

节点上的设备插件配置

确认显卡是否支持分片或 MIG（RTX 2070 不支持）

正确配置后，nvidia.com/gpu 的值应与实际物理 GPU 数量一致（即应为 1）。

上一篇：影石insta360 DevOps工程师一面记录

下一篇：无人机抗干扰技术要点解析

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……