vllm安装到dgx spark上

docker pull nvcr.io/nvidia/vllm:26.01-py3

docker run -it --gpus all -p 8000:8000 \ nvcr.io/nvidia/vllm:${LATEST_VLLM_VERSION} \ vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct"

docker run -it --rm \ --gpus all \ -p 8000:8000 \ -e HF_ENDPOINT=https://hf-mirror.com \ nvcr.io/nvidia/vllm:26.01-py3 \ vllm serve Qwen/Qwen3.5-9B-Instruct \ --trust-remote-code \ --host 0.0.0.0

docker run -it --rm \ --gpus all \ -p 8000:8000 \ --ipc=host \ -e HF_ENDPOINT=https://hf-mirror.com \ nvcr.io/nvidia/vllm:26.01-py3 \ vllm serve Qwen/Qwen2-7B-Instruct \ --host 0.0.0.0

http://服务器IP:8000/v1/chat/completions

curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "Qwen/Qwen2-7B-Instruct", "messages": {"role": "user", "content": "你好!你是谁"} }'

其他电脑访问 vLLM 模型的地址

1. 基础访问地址(前端 / 面板用)

plaintext

复制代码
http://192.168.1.77:8000

2. OpenAI 兼容 API 地址(所有软件通用)

plaintext

复制代码
http://192.168.1.77:8000/v1

3. 对话接口(可直接测试)

plaintext

复制代码
http://192.168.1.77:8000/v1/chat/completions

其他电脑测试命令(直接复制可用)

bash

运行

复制代码
curl http://192.168.1.77:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2-7B-Instruct",
    "messages": [
      {"role": "user", "content": "你好"}
    ]
  }'

Ubuntu 开放端口(必须执行一次)

bash

运行

复制代码
sudo ufw allow 8000/tcp
sudo ufw reload

相关推荐
我叫张土豆10 小时前
V100 显卡部署 Qwen3-ASR-1.7B 语音识别模型(vLLM + Docker 完整教程)
docker·语音识别·vllm
碳基硅坊16 小时前
MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测
人工智能·vllm·llama.cpp·模型加速·mtp
Soonyang Zhang19 小时前
vllm分析(八)——deepseek v4 Attention (SWA + CSA + HCA)
vllm·推理框架·kv cache
Soonyang Zhang2 天前
vllm分析(七)——模型结构分析(llama, qwen3moe)
vllm·推理框架
陈 洪 伟2 天前
大模型推理引擎vLLM(25): 从--kv-cache-dtype fp8_e5m2时gsm8k答非所问的bug梳理kv cache相应代码片段
vllm·kvcache
zjun30212 天前
【昇腾950】如何在昇腾950pr的容器环境上部署vllm
vllm·vllm-ascend·torch_npu·昇腾950
小何code3 天前
人工智能【第55篇】大模型推理优化:vLLM与推理加速技术
vllm·大模型部署·推理优化·pagedattention
清风lsq6 天前
大模型-vllm 自投机解码可行性分析
vllm·大模型推理
大模型推理6 天前
《Nano-vLLM 源码解读》第 12 篇 · ModelRunner:从 prompt 到 token(二)
vllm
清风lsq7 天前
大模型-解析vllm lora 模块
人工智能·vllm·大模型推理