【GPT入门】第65课 vllm指定其他卡运行的方法，解决单卡CUDA不足的问题

*星星之火*2025-09-09 13:41

【GPT入门】第65课 vllm指定其他卡运行的方法，解决单卡CUDA不足的问题

１.原理
- - 说明：
２.实践

１.原理

要将 vllm 部署在第二张 GPU 卡上（设备编号为 1），只需在命令前添加 CUDA_VISIBLE_DEVICES=1 环境变量指定 GPU 设备：

bash 复制代码

CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

说明：

CUDA_VISIBLE_DEVICES=1 是核心配置，强制程序仅使用编号为 1 的 GPU（第二张卡，GPU 编号从 0 开始计数）
若需验证 GPU 编号，可先运行 nvidia-smi 查看所有 GPU 设备的序号和状态

如需额外参数（如指定端口、并发数等），可直接追加在命令后，例如：

bash 复制代码

CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat --port 8000 --max-num-seqs 32

２.实践

下面的图是nvitop，（通过pip install nvitop 安装）的截图

运行前
指定第一个卡运行
命令：

c 复制代码

CUDA_VISIBLE_DEVICES=1  vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

其他llm程序默认在第0个卡运行

上一篇：【Linux基础】Linux系统管理：GPT分区实践详细操作指南

下一篇：03.缓存池

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 04BongoCat - 跨平台键盘猫动画工具 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Labelme从安装到标注：零基础完整指南 08《大数据技术原理与应用》实验报告三熟悉HBase常用操作 09jdk21下载、安装（Windows、Linux、macOS）10PyCharm 社区版全平台安装指南