CUDA_VISIBLE_DEVICES与nvidia-smi显卡序号不一致的问题

CUDA_VISIBLE_DEVICES与nvidia-smi显卡序号不一致的问题

情况描述:

物理插槽从上到下:RTX5090、RTX3090、RTX5090
nvidia-smi顺序:RTX5090、RTX3090、RTX5090
CUDA_VISIBLE_DEVICES实测顺序:RTX5090、RTX5090RTX3090

导致使用CUDA_VISIBLE_DEVICES限制程序运行的显卡时,发现实际情况与预期不符。

原因分析:CUDA 的默认排序机制

在默认情况下,CUDA 驱动程序(以及 PyTorch/TensorFlow 等框架)倾向于按照计算能力(Performance/Fastest First) 来给 GPU 排序,而不是按照物理插槽(PCI Bus ID)的顺序。

解决方法:使用环境变量,要求CUDA强制按照物理插槽顺序进行排序

bash 复制代码
CUDA_DEVICE_ORDER=PCI_BUS_ID

例如在systemd的service脚本中写:

bash 复制代码
Environment="CUDA_DEVICE_ORDER=PCI_BUS_ID"
Environment="CUDA_VISIBLE_DEVICES=1"
相关推荐
doiito1 小时前
【Agent Harness】 给 ComfyUI 装上一个 Rust 大脑:media_agent 架构深度揭秘
ai·rust·架构设计·系统设计·ai agent
用户83562907805116 小时前
Python 实现 PDF 文件加密与解密方法
后端·python
用户83562907805116 小时前
使用 Python 冻结与拆分 Excel 窗格教程
后端·python
垚森16 小时前
AI时代,让曾经的遗憾变成现实
ai
leonshi17 小时前
使用embedchain快速建立rag知识库,本地大模型
ai·rag·ollama
你好潘先生1 天前
别再记命令了,用 yeero do 说句人话就能跑脚本,而且不烧 token
服务器·python·命令行
Agent_大师1 天前
WebSocket 行情重连成功,K线缺口不会自动消失
python
荣码1 天前
LLM结构化输出:让AI返回JSON而不是废话,我踩了4个坑
java·python
copyer_xyf1 天前
FastAPI 如何连接 MySQL
后端·python
doiito1 天前
【Agent Harness】Gliding Horse 上下文感知与智能压缩:让 Agent 的“注意力”永不偏移
ai·rust·架构设计·系统设计·ai agent