【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

1.原理

要将 vllm 部署在第二张 GPU 卡上(设备编号为 1),只需在命令前添加 CUDA_VISIBLE_DEVICES=1 环境变量指定 GPU 设备:

bash 复制代码
CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

说明:

  • CUDA_VISIBLE_DEVICES=1 是核心配置,强制程序仅使用编号为 1 的 GPU(第二张卡,GPU 编号从 0 开始计数)

  • 若需验证 GPU 编号,可先运行 nvidia-smi 查看所有 GPU 设备的序号和状态

  • 如需额外参数(如指定端口、并发数等),可直接追加在命令后,例如:

    bash 复制代码
    CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat --port 8000 --max-num-seqs 32

2.实践

下面的图是nvitop, (通过pip install nvitop 安装) 的截图

  • 运行前
  • 指定第一个卡运行
    命令:
c 复制代码
CUDA_VISIBLE_DEVICES=1  vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat
  • 其他llm程序默认在第0个卡运行
相关推荐
网安情报局3 小时前
2026实测|GPT‑Image‑2国内合规接入新选择:快快云安全AI大模型聚合平台
人工智能·gpt
薛定猫AI5 小时前
【深度解析】GPT-6 关键技术趋势:持久化记忆、Agent 能力与企业级落地架构
大数据·gpt·架构
Highcharts.js6 小时前
|Highcharts图表专家智能体+Highcharts GPT +MCP 服务=智能图表开发服务体系
gpt·信息可视化·llm·图表·智能体·highcharts·图表开发
小快说网安6 小时前
当GPT Image 2遇见企业级AI大模型聚合平台:快快云云安全的接入逻辑与价值重构
人工智能·gpt·ai·chatgpt·aigc
searchforAI1 天前
2026年音视频笔记工具横评:通义听悟、讯飞听见、Get笔记、Ai好记
人工智能·笔记·gpt·aigc·音视频·语音识别·知识图谱
searchforAI1 天前
B站视频自动转图文+思维导图,附6种学习模式详解
人工智能·经验分享·笔记·gpt·学习·ai
菜鸟是大神1 天前
10-参考型Skill的创建和使用
gpt·chatgpt·ai作画·文心一言·ai编程
菜鸟是大神1 天前
06-Claude Code的四种工作模式
gpt·chatgpt·文心一言·ai编程
Nayxxu1 天前
多模型路由实践:按任务选择 Claude、GPT、Gemini 的基本策略
人工智能·gpt