vllm安装到dgx spark上

docker pull nvcr.io/nvidia/vllm:26.01-py3

docker run -it --gpus all -p 8000:8000 \ nvcr.io/nvidia/vllm:${LATEST_VLLM_VERSION} \ vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct"

docker run -it --rm \ --gpus all \ -p 8000:8000 \ -e HF_ENDPOINT=https://hf-mirror.com \ nvcr.io/nvidia/vllm:26.01-py3 \ vllm serve Qwen/Qwen3.5-9B-Instruct \ --trust-remote-code \ --host 0.0.0.0

docker run -it --rm \ --gpus all \ -p 8000:8000 \ --ipc=host \ -e HF_ENDPOINT=https://hf-mirror.com \ nvcr.io/nvidia/vllm:26.01-py3 \ vllm serve Qwen/Qwen2-7B-Instruct \ --host 0.0.0.0

http://服务器IP:8000/v1/chat/completions

curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen/Qwen2-7B-Instruct", "messages": [ {"role": "user", "content": "你好!你是谁"} ] }'

其他电脑访问 vLLM 模型的地址

1. 基础访问地址(前端 / 面板用)

plaintext

复制代码
http://192.168.1.77:8000

2. OpenAI 兼容 API 地址(所有软件通用)

plaintext

复制代码
http://192.168.1.77:8000/v1

3. 对话接口(可直接测试)

plaintext

复制代码
http://192.168.1.77:8000/v1/chat/completions

其他电脑测试命令(直接复制可用)

bash

运行

复制代码
curl http://192.168.1.77:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2-7B-Instruct",
    "messages": [
      {"role": "user", "content": "你好"}
    ]
  }'

Ubuntu 开放端口(必须执行一次)

bash

运行

复制代码
sudo ufw allow 8000/tcp
sudo ufw reload

相关推荐
我叫Double1 天前
本地服务器部署vllm+Qwen3-Coder-Next的模型
vllm
m0_564876842 天前
vllm的pageattention到底是怎么回事?
vllm
AI视觉网奇2 天前
docker vllm 开机启动
docker·容器·vllm
做个文艺程序员5 天前
vLLM 部署大模型推理服务完全教程:吞吐量是 Ollama 的 10 倍,生产环境首选
vllm·vllm教程
liuyunshengsir5 天前
LMCache + vLLM 部署指南(以 Qwen3-0.6B 为例)
vllm
诸葛老刘5 天前
在PC机上 使用docker vLLM镜像部署Qwen3-1.7B
docker·vllm
Soonyang Zhang6 天前
vllm分析(二)——http request的入口处理
人工智能·vllm·推理框架
xyhshen6 天前
如何两台atlas-a2服务器物理机,基于vllm-ascend部署qwen3.5 397b-w8a8-mtp大模型
vllm
zadyd6 天前
vLLM Linux 双卡部署大模型服务器指南
linux·人工智能·python·机器学习·vllm