AMD显卡运行qwen3.5-使用VLLM

1、下载镜像

docker pull docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0

2、自定义docker镜像

复制代码
FROM docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0
RUN pip install modelscope>=1.18.1

docker build -t my-vllm-with-modelscope:v0.18.0 .

3、运行

复制代码
docker run --rm \
  --name vllm_qwen35 \
  --device=/dev/kfd --device=/dev/dri \
  --security-opt seccomp=unconfined \
  --group-add video \
  --ipc=host \
  -p 8000:8000 \
  -v /home/vllm:/root/.cache/modelscope \
  -e VLLM_USE_MODELSCOPE=True \
  my-vllm-with-modelscope:nightly  \
  --model tclf90/Qwen3.5-9B-AWQ \
  --language-model-only \
  --tensor-parallel-size 1 \
  --reasoning-parser qwen3 \
  --enable-prefix-caching \
 --max-model-len 32768
相关推荐
柯南小海盗1 天前
大模型GPU选型与部署资源评估完全指南:从RTX 4090到H20,从vLLM到SGLang
语言模型·vllm·sglang
daoboker1 天前
vllm自动化压测脚本
vllm
YoanAILab1 天前
AI 推理系统架构怎么选?图像生成与文本生成的分层选型思路(ComfyUI / Dify / vLLM / Triton)
人工智能·系统架构·comfyui·dify·vllm·ai工程
NeilNiu2 天前
本地部署Ollama及部署模型
vllm
Forrit2 天前
关于vLLM框架
vllm
SunnyRivers2 天前
快速理解vLLM命令行工具serve
命令行·serve·vllm
田井中律.3 天前
linux部署VLLM、大模型(详细图文)
vllm
陈 洪 伟3 天前
大模型推理引擎vLLM(19): vLLM中的DBO(Dual Batch Overlap)功能代码实现分析
vllm
AIGC_北苏4 天前
Qwen3.5开源模型实测
vllm