AMD显卡运行qwen3.5-使用VLLM

陕西小伙伴网络科技有限公司2026-03-28 14:06

1、下载镜像

docker pull docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0

2、自定义docker镜像

复制代码

FROM docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0
RUN pip install modelscope>=1.18.1

docker build -t my-vllm-with-modelscope:v0.18.0 .

3、运行

复制代码

docker run --rm \
  --name vllm_qwen35 \
  --device=/dev/kfd --device=/dev/dri \
  --security-opt seccomp=unconfined \
  --group-add video \
  --ipc=host \
  -p 8000:8000 \
  -v /home/vllm:/root/.cache/modelscope \
  -e VLLM_USE_MODELSCOPE=True \
  my-vllm-with-modelscope:nightly  \
  --model tclf90/Qwen3.5-9B-AWQ \
  --language-model-only \
  --tensor-parallel-size 1 \
  --reasoning-parser qwen3 \
  --enable-prefix-caching \
 --max-model-len 32768

上一篇：nodejs：Vite + Svelte + ts 入门示例

下一篇：数据稠密计算的内存优化：从理论到实践