【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

1.原理

要将 vllm 部署在第二张 GPU 卡上(设备编号为 1),只需在命令前添加 CUDA_VISIBLE_DEVICES=1 环境变量指定 GPU 设备:

bash 复制代码
CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

说明:

  • CUDA_VISIBLE_DEVICES=1 是核心配置,强制程序仅使用编号为 1 的 GPU(第二张卡,GPU 编号从 0 开始计数)

  • 若需验证 GPU 编号,可先运行 nvidia-smi 查看所有 GPU 设备的序号和状态

  • 如需额外参数(如指定端口、并发数等),可直接追加在命令后,例如:

    bash 复制代码
    CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat --port 8000 --max-num-seqs 32

2.实践

下面的图是nvitop, (通过pip install nvitop 安装) 的截图

  • 运行前
  • 指定第一个卡运行
    命令:
c 复制代码
CUDA_VISIBLE_DEVICES=1  vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat
  • 其他llm程序默认在第0个卡运行
相关推荐
zstar-_21 小时前
【不背八股】19.GPT-2:不再微调,聚焦零样本
gpt
DFminer1 天前
【仿生机器人】基于 GPT-SoVITS 的 发声器
gpt·机器人
哪 吒1 天前
本地安装Codex,国内直接使用GPT-5-Codex
gpt·ai·chatgpt·codex·gpt-5·gpt-5 codex
zstar-_2 天前
【不背八股】18.GPT1:GPT系列的初代目
gpt
空中湖2 天前
AI觉醒:小白的大模型冒险记 第9章:GPT大师的工坊 - 语言模型的训练秘密
人工智能·gpt·语言模型
哪吒编程3 天前
本地安装Codex,国内直接使用GPT-5-Codex
gpt·chatgpt
史不了4 天前
从 EFI 到 GPT:深入理解现代计算机启动与磁盘分区技术
gpt
里予.c4 天前
ARM—时钟(CLOCK)—定时器(EPIT / GPT)
arm开发·gpt
Mr.Lee jack4 天前
国内如何使用GPT-5-Codex
gpt·gpt-5·gpt-5-codex
winkel_wang4 天前
一个硬盘选MBR 还是GPT
windows·gpt·mbr