【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

1.原理

要将 vllm 部署在第二张 GPU 卡上(设备编号为 1),只需在命令前添加 CUDA_VISIBLE_DEVICES=1 环境变量指定 GPU 设备:

bash 复制代码
CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

说明:

  • CUDA_VISIBLE_DEVICES=1 是核心配置,强制程序仅使用编号为 1 的 GPU(第二张卡,GPU 编号从 0 开始计数)

  • 若需验证 GPU 编号,可先运行 nvidia-smi 查看所有 GPU 设备的序号和状态

  • 如需额外参数(如指定端口、并发数等),可直接追加在命令后,例如:

    bash 复制代码
    CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat --port 8000 --max-num-seqs 32

2.实践

下面的图是nvitop, (通过pip install nvitop 安装) 的截图

  • 运行前
  • 指定第一个卡运行
    命令:
c 复制代码
CUDA_VISIBLE_DEVICES=1  vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat
  • 其他llm程序默认在第0个卡运行
相关推荐
m晴朗13 小时前
测试覆盖率从35%到80%:我用AI批量生成C++单元测试的完整方案
c++·gpt·ai
咕噜企业分发小米14 小时前
GPUStack私有模型仓库配置教程
gpt
PD我是你的真爱粉15 小时前
大模型可控性实践:护栏技术、结构化输出、GPT Structured Outputs 与 GPTCache
人工智能·gpt
东北洗浴王子讲AI19 小时前
GPT-5.4英语口语学习全攻略:从开口困难到流利表达的进阶之路
gpt·学习
Sim148020 小时前
GPT-5倒计时:多模态AI助手大战一触即发,谁将主导下一代操作系统?
人工智能·gpt·microsoft
东北洗浴王子讲AI20 小时前
GPT-5.4英语写作能力提升:从基础表达到专业写作的系统训练方法
gpt
东北洗浴王子讲AI20 小时前
GPT-5.4在自动化测试与质量保障中的创新应用实践
人工智能·gpt·自然语言处理·chatgpt
东北洗浴王子讲AI1 天前
GPT-5.4辅助算法设计与优化:从理论到实践的系统方法
人工智能·gpt·算法·chatgpt
晨欣2 天前
【如何选出最适合你业务场景所需的大模型?】Artificial Analysis 网站最佳使用指南(GPT-5.4-high生成)
gpt·llm选型