vllm安装到dgx spark上

docker pull nvcr.io/nvidia/vllm:26.01-py3

docker run -it --gpus all -p 8000:8000 \ nvcr.io/nvidia/vllm:${LATEST_VLLM_VERSION} \ vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct"

docker run -it --rm \ --gpus all \ -p 8000:8000 \ -e HF_ENDPOINT=https://hf-mirror.com \ nvcr.io/nvidia/vllm:26.01-py3 \ vllm serve Qwen/Qwen3.5-9B-Instruct \ --trust-remote-code \ --host 0.0.0.0

docker run -it --rm \ --gpus all \ -p 8000:8000 \ --ipc=host \ -e HF_ENDPOINT=https://hf-mirror.com \ nvcr.io/nvidia/vllm:26.01-py3 \ vllm serve Qwen/Qwen2-7B-Instruct \ --host 0.0.0.0

http://服务器IP:8000/v1/chat/completions

curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen/Qwen2-7B-Instruct", "messages": [ {"role": "user", "content": "你好!你是谁"} ] }'

其他电脑访问 vLLM 模型的地址

1. 基础访问地址(前端 / 面板用)

plaintext

复制代码
http://192.168.1.77:8000

2. OpenAI 兼容 API 地址(所有软件通用)

plaintext

复制代码
http://192.168.1.77:8000/v1

3. 对话接口(可直接测试)

plaintext

复制代码
http://192.168.1.77:8000/v1/chat/completions

其他电脑测试命令(直接复制可用)

bash

运行

复制代码
curl http://192.168.1.77:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2-7B-Instruct",
    "messages": [
      {"role": "user", "content": "你好"}
    ]
  }'

Ubuntu 开放端口(必须执行一次)

bash

运行

复制代码
sudo ufw allow 8000/tcp
sudo ufw reload

相关推荐
张忠琳21 小时前
【vllm】(二)vLLM v1 Engine — 模块超深度逐行分析之二
ai·架构·vllm
张忠琳1 天前
【vllm】(四)vLLM v1 Worker — 模块超深度逐行分析之三
ai·架构·vllm
张忠琳1 天前
【vllm】(三)vLLM v1 Core — 模块超深度逐行分析之二
ai·架构·vllm
张忠琳1 天前
【vllm】(三)vLLM v1 Core — 模块超深度逐行分析之三
ai·架构·vllm
张忠琳1 天前
【vllm】(四)vLLM v1 Worker — 模块超深度逐行分析之二
ai·架构·vllm
张忠琳2 天前
【vllm】vLLM v1 KV Offload — 模块超深度逐行分析之一(七)
ai·架构·vllm
张忠琳2 天前
【vllm】vLLM v1 Attention — 系统级架构深度分析(五)
ai·架构·vllm
张忠琳2 天前
【openclaw】OpenClaw Flows 模块超深度架构分析
ai·架构·vllm
张忠琳2 天前
【openclaw】OpenClaw Daemon 模块超深度架构分析
ai·架构·vllm