【杂记】vLLM如何指定GPU单卡/多卡离线推理

写在前面

仅作个人学习与记录用。主要记录vLLM指定GPU单卡/多卡离线推理的方法。


vLLM官方文档中Environment Variables页面有对指定GPU方法的唯一描述:

bash 复制代码
# used to control the visible devices in the distributed setting
"CUDA_VISIBLE_DEVICES":
lambda: os.environ.get("CUDA_VISIBLE_DEVICES", None),

在vLLM离线推理(Offline Inference)时,可以通过设置tensor_parallel_size = 1/2/3...,来使用默认的单卡GPU或多卡GPU来推理。但是如果想在指定的单卡/多卡GPU中运行vLLM,那么应该如何以及在哪里设置CUDA_VISIBLE_DEVICES?

一般来说,使用下面三种方法就可以了:

shell指定:

bash 复制代码
CUDA_VISIBLE_DEVICES=3  python train.py

另一种shell指定(不推荐):

bash 复制代码
export CUDA_VISIBLE_DEVICES=3  
python train.py

代码内部指定:

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"]="3"

但是在实际执行代码过程中,可能存在失效的情况。即无论怎么修改可见的GPU编号,最后程序都是按照顺序从第0块开始使用。问题出在哪里呢?

假设一共有四卡,先使用nvidia-smi -L查看可用GPU及序号:

bash 复制代码
GPU 0: GeForce RTX XXX (UUID: xxx)
GPU 1: GeForce RTX XXX (UUID: xxx)
GPU 2: GeForce RTX XXX (UUID: xxx)
GPU 3: NVIDIA XXX (UUID: xxx)

而在代码中测试,会得到:

python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "3"
import torch
print(torch.cuda.get_device_name(0))  # 返回GPU名称,设备索引默认从0开始
print(torch.cuda.current_device())  # 返回现在使用的GPU索引

输出:
1
GeForce RTX XXX
0
python 复制代码
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
import torch
print(torch.cuda.get_device_name(0))  # 返回GPU名称,设备索引默认从0开始
print(torch.cuda.current_device())  # 返回现在使用的GPU索引

输出:
NVIDIA XXX
0

这是因为nvidia-smi命令中的GPU序号与代码中的GPU序号是相反的,nvidia-smi的 GPU序号默认使用PCI_BUS_ID,而py文件代码默认GPU序号遵循FASTEST_FIRST

那么可以修改上述指定方式如下:

shell指定:

bash 复制代码
CUDA_VISIBLE_DEVICES=3 export CUDA_DEVICE_ORDER="PCI_BUS_ID" python train.py

另一种shell指定(不推荐):

bash 复制代码
export CUDA_VISIBLE_DEVICES=3  
export CUDA_DEVICE_ORDER="PCI_BUS_ID"
python train.py

代码内部指定:

python 复制代码
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "3"

另外需要注意,如果你在离线推理时import了pytorch等包,最好将os.environ["CUDA_VISIBLE_DEVICES"] = "3"移到import torch等代码之前,紧随import os之后,即按照如下的方式:

python 复制代码
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"]="3"
import torch
......
相关推荐
basketball616几秒前
AI Infra 硬件体系与编程模型:14. CUDA编程基础:事件与精确性能测量
人工智能·nvidia·cuda
精益数智小屋几秒前
拆解项目管理计划的核心功能:用项目管理计划解决跨部门协作难题
大数据·人工智能·数据分析·云计算·软件工程
邵宇然2 分钟前
llama.cpp 多模态推理优化:从视觉编码器到跨模态注意力的高效部署实践
人工智能
朱大喜3 分钟前
Python 数据分析实战:pandas 与 Polars 的性能对决与选型决策
人工智能
码农天天4 分钟前
从云端走向端侧:解读 AI 硬件与应用形态的迭代之路
人工智能
love530love7 分钟前
2026年终极防坑指南:基于 EPGF 架构彻底“本地化” UV 环境与工具
人工智能·windows·python·架构·devops·uv·epgf
糖果店的幽灵7 分钟前
AI 驱动 Selenium 测试框架最佳实践:从传统自动化到智能体测试
人工智能·selenium·自动化
人民新视野8 分钟前
2026美墨加世界杯伊朗VS新西兰预测分析亚洋二线实力大比拼
人工智能
qq_4112624212 分钟前
四博智联AI开发宝典(2/3):后端部署、OTA与AT+MCP接入
人工智能·ai·四博
QiLinkOS12 分钟前
极客精神与商业思维的融合实践(2)
c语言·c++·人工智能·算法·开源协议