【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

1.原理

要将 vllm 部署在第二张 GPU 卡上(设备编号为 1),只需在命令前添加 CUDA_VISIBLE_DEVICES=1 环境变量指定 GPU 设备:

bash 复制代码
CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

说明:

  • CUDA_VISIBLE_DEVICES=1 是核心配置,强制程序仅使用编号为 1 的 GPU(第二张卡,GPU 编号从 0 开始计数)

  • 若需验证 GPU 编号,可先运行 nvidia-smi 查看所有 GPU 设备的序号和状态

  • 如需额外参数(如指定端口、并发数等),可直接追加在命令后,例如:

    bash 复制代码
    CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat --port 8000 --max-num-seqs 32

2.实践

下面的图是nvitop, (通过pip install nvitop 安装) 的截图

  • 运行前
  • 指定第一个卡运行
    命令:
c 复制代码
CUDA_VISIBLE_DEVICES=1  vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat
  • 其他llm程序默认在第0个卡运行
相关推荐
gis分享者7 小时前
GPT-Image-2 图像生成模型新手实战指南
gpt·ai·image·模型·图像生成
Nayxxu11 小时前
GPT 多模态 API 接入思路:文本、图片、音频请求怎么拆分
gpt
Xiaofeng369313 小时前
硬核编码与推理对决:Gemini 3.5 Flash vs GPT-5.5 真实能力横向测评
人工智能·gpt
147API14 小时前
OpenAI 推出 Partner Network 后,企业 GPT 项目别只看模型接入
大数据·人工智能·gpt
专注搞钱1 天前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
人工智能培训1 天前
数字孪生的未来发展方向探析
gpt·深度学习·机器学习·容器·知识图谱
诺***帝1 天前
GPT-Image-2 氛围渲染能力全解析:光影、景深、材质还原的 Prompt 实战教程
人工智能·gpt
GEO索引未来1 天前
AIIA可信GEO专题研讨会召开/AI全面加入618“大战”/谷歌重拳治理“AI投毒”
大数据·人工智能·gpt·chatgpt
冰^2 天前
AI CC Switch 解决了什么?
人工智能·gpt·网络协议·chatgpt·github·aigc