Linux 或者 Ubuntu 离线使用 vllm启动大模型

使用 vllm 启动 QWQ-32B 的命令

完整的命令如下

shell 复制代码
python -m vllm.entrypoints.openai.api_server \
--model /root/.cache/modelscope/hub/models/Qwen/QwQ-32B \
--tensor-parallel-size 4 \
--host 0.0.0.0 \
--port 8000 \
--max-num-batched-tokens 2048 \
--gpu-memory-utilization 0.85 \
--hosted-model-name QwQ-32B

参数详解

1. python -m vllm.entrypoints.openai.api_server
  • 启动的是 vLLM 的 OpenAI API 兼容服务器
  • 这个服务器对外提供与 OpenAI API 类似的接口(如 /v1/chat/completions
  • 可以用 curl、Python SDK 或前端调用,兼容 OpenAI 格式请求

2. --model /root/.cache/modelscope/hub/models/Qwen/QwQ-32B
  • 指定要加载的模型路径
  • 这里是本地存储的 QwQ-32B 模型,通常是一个 HuggingFace 风格的模型文件夹
  • 支持 GGUF、HuggingFace、以及经过 vLLM 转换后的张量并行模型

3. --tensor-parallel-size 4
  • 表示使用 4 块 GPU 来进行 Tensor Parallelism(张量并行)
  • QwQ-32B 是一个大模型,单卡放不下,所以需要拆分到多个 GPU 上推理
  • 如果你有 4 张卡,这个设置合理;如果只有 1 张卡,就设为 --tensor-parallel-size 1

4. --host 0.0.0.0
  • 设置监听地址为所有网络接口
  • 这样可以从外部访问该服务(比如从其他机器通过 IP 访问)
  • 如果只想本机访问,可以改为 --host 127.0.0.1

5. --port 8000
  • 设置服务监听的端口号为 8000
  • 可以通过浏览器或 API 请求访问:http://localhost:8000http://<ip>:8000

6. --max-num-batched-tokens 2048
  • 控制每次 batch 中最多处理多少个 token(输入 + 输出)
  • 增大这个值可以提高吞吐量,但会占用更多显存
  • 默认值通常是 2560 左右,这里设为 2048 是为了控制显存使用

7. --gpu-memory-utilization 0.85
  • 设置 GPU 显存使用率为 85%
  • 这是为了防止 OOM(Out Of Memory),留出一部分缓冲空间
  • 默认值是 0.9,如果你的显存较小,可以适当降低(如 0.7)

8. --hosted-model-name QwQ-32B

它表示:虽然模型实际路径是 /root/.cache/...,但对外暴露的模型名是 QwQ-32B


要让 MODEL_NAME = "QwQ-32B" 成功调用你的本地模型,你需要在启动 vLLM 服务时加上一个参数::

shell 复制代码
--hosted-model-name QwQ-32B \

# 也就是
--host 0.0.0.0 \
--port 8000 \
--model /root/.cache/modelscope/hub/models/Qwen/QwQ-32B \
--hosted-model-name QwQ-32B \

它表示:虽然模型实际路径是 /root/.cache/...,但对外暴露的模型名是 QwQ-32B

示例请求(使用 curl)

可以使用如下命令测试服务是否正常运行:

bash 复制代码
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
  "model": "QwQ-32B",
  "messages": [{"role": "user", "content": "讲个笑话吧"}]
}'

示例请求代码(使用python)

python 复制代码
import openai

client = openai.OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"  # 如果没有启用鉴权,可以为空
)

completion = client.chat.completions.create(
    model="QwQ-32B",  # ← 这里就能用了!
    messages=[
        {"role": "user", "content": "你好,请讲个笑话。"}
    ]
)

print(completion.choices[0].message.content)
相关推荐
沉鱼.442 小时前
第十五届题目
linux·运维·算法
凤年徐2 小时前
Linux权限详解:从入门到掌握
linux·运维·服务器
zzzyyy5382 小时前
进程优先级
linux·运维·服务器
小鸡食米2 小时前
Linux-例行性工作+时间服务器
linux·服务器·网络
Bert.Cai2 小时前
Linux head命令详解
linux·运维
Huy-C2 小时前
云计算案例排错(云上4)
linux·运维·云计算
路溪非溪2 小时前
Linux中Netlink简介和使用总结
linux·网络·arm开发·驱动开发
大新软件技术部2 小时前
Linux 服务器下dotnetcore 程序监控
linux·运维·服务器
程序猿编码2 小时前
Linux内核级隐身术:进程与端口隐藏技术剖析
linux·运维·服务器·linux内核·进程