AMD显卡运行qwen3.5-使用VLLM

1、下载镜像

docker pull docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0

2、自定义docker镜像

复制代码
FROM docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0
RUN pip install modelscope>=1.18.1

docker build -t my-vllm-with-modelscope:v0.18.0 .

3、运行

复制代码
docker run --rm \
  --name vllm_qwen35 \
  --device=/dev/kfd --device=/dev/dri \
  --security-opt seccomp=unconfined \
  --group-add video \
  --ipc=host \
  -p 8000:8000 \
  -v /home/vllm:/root/.cache/modelscope \
  -e VLLM_USE_MODELSCOPE=True \
  my-vllm-with-modelscope:nightly  \
  --model tclf90/Qwen3.5-9B-AWQ \
  --language-model-only \
  --tensor-parallel-size 1 \
  --reasoning-parser qwen3 \
  --enable-prefix-caching \
 --max-model-len 32768
相关推荐
AI小百科3 天前
llama.cpp vs vLLM:深度解析与选型指南
llama·vllm
IRevers4 天前
【大模型】Gemma4在ROCm和vLLM部署
人工智能·pytorch·深度学习·大模型·datawhale·vllm·amdev
下班走回家4 天前
本地部署大模型的三种方式:Ollama vs vLLM vs llama.cpp
人工智能·llama·vllm
花间相见5 天前
【大模型部署01】—— vLLM 部署大模型服务实操:从 0 到 1 搭建 OpenAI 兼容 API
vllm
有来有去95275 天前
【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架
人工智能·深度学习·语言模型·gpu算力·vllm
安如衫6 天前
【Hello-ROCm】vLLM 跑通 Gemma4-E4B
datawhale·vllm·amdev
毒爪的小新6 天前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
像风一样自由20206 天前
17.推理框架横评:vLLM / TGI / TensorRT-LLM / SGLang 全面对比
人工智能·大模型·vllm·sglang
rebibabo6 天前
KV Cache 与 PagedAttention 详解:理论推导 + RTX 3090 实测数据
人工智能·vllm·推理加速·大模型部署·kvcache