【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题

1.原理

要将 vllm 部署在第二张 GPU 卡上(设备编号为 1),只需在命令前添加 CUDA_VISIBLE_DEVICES=1 环境变量指定 GPU 设备:

bash 复制代码
CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat

说明:

  • CUDA_VISIBLE_DEVICES=1 是核心配置,强制程序仅使用编号为 1 的 GPU(第二张卡,GPU 编号从 0 开始计数)

  • 若需验证 GPU 编号,可先运行 nvidia-smi 查看所有 GPU 设备的序号和状态

  • 如需额外参数(如指定端口、并发数等),可直接追加在命令后,例如:

    bash 复制代码
    CUDA_VISIBLE_DEVICES=1 vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat --port 8000 --max-num-seqs 32

2.实践

下面的图是nvitop, (通过pip install nvitop 安装) 的截图

  • 运行前
  • 指定第一个卡运行
    命令:
c 复制代码
CUDA_VISIBLE_DEVICES=1  vllm serve /root/autodl-tmp/models_xxzh/Qwen/Qwen1.5-1.8B-Chat
  • 其他llm程序默认在第0个卡运行
相关推荐
大千AI助手17 小时前
GPT-Neo:开源大型自回归语言模型的实现与影响
人工智能·gpt·机器学习·开源·大模型·大千ai助手·gpt-neo
桂花饼18 小时前
[首发实测] GPT-5.2 pro 接入指南:SWE-bench 80% 胜率的“工程级”模型,Python 如何实现低成本调用?
python·gpt·ai编程·大模型实战·gemini 3 pro·claude opus 4.5
albert-einstein19 小时前
JBoss 4.x JBossMQ JMS 反序列化漏洞 CVE-2017-7504(参考peiqi文库以及gpt)
gpt
albert-einstein20 小时前
Nginx越界读取缓存漏洞CVE-2017-7529(参考peiqi文库以及gpt)
gpt·nginx·缓存
AI科技摆渡2 天前
GPT-5.2介绍+ 三步对接教程
android·java·gpt
桂花饼2 天前
[全网首发] Sora2Pro API 逆向接入指南:如何用 Python 实现 0.88元/次 的 4K 视频生成?(附源码)
gpt·nano banana 2·图像生成api·openai兼容接口·sora2 pro
hellocode_2 天前
【2025年】GPT-5.2怎么样?Instant/Thinking/Pro 怎么选?如何订阅使用chatgptplus?GPT-5.2使用实例展示
人工智能·gpt·chatgpt
Code_流苏2 天前
GPT-5.1深度解析:更智能更自然,日常体验依旧出色!
人工智能·gpt·ai·深度解析·gpt5.1·日常体验
冷yan~2 天前
GPT-5.2 深度技术解析:OpenAI 最强模型的架构与性能突破
java·gpt·ai·架构·ai编程
kkk_皮蛋3 天前
“红色警报“后的反击:OpenAI 发布 GPT-5.2,AI 霸主之争白热化
人工智能·gpt·chatgpt