AMD显卡运行qwen3.5-使用VLLM

1、下载镜像

docker pull docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0

2、自定义docker镜像

复制代码
FROM docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0
RUN pip install modelscope>=1.18.1

docker build -t my-vllm-with-modelscope:v0.18.0 .

3、运行

复制代码
docker run --rm \
  --name vllm_qwen35 \
  --device=/dev/kfd --device=/dev/dri \
  --security-opt seccomp=unconfined \
  --group-add video \
  --ipc=host \
  -p 8000:8000 \
  -v /home/vllm:/root/.cache/modelscope \
  -e VLLM_USE_MODELSCOPE=True \
  my-vllm-with-modelscope:nightly  \
  --model tclf90/Qwen3.5-9B-AWQ \
  --language-model-only \
  --tensor-parallel-size 1 \
  --reasoning-parser qwen3 \
  --enable-prefix-caching \
 --max-model-len 32768
相关推荐
运维 小白7 小时前
2. vLLM多机单卡+open claw部署
运维·ai·vllm
kimi-2229 小时前
vLLM 引擎(vLLM Engine)的所有配置参数
vllm
竹之却11 小时前
【Agent-阿程】AI先锋杯·14天征文挑战第14期-第9天-大模型服务端高效部署与vLLM实战
人工智能·vllm
java资料站1 天前
DeepSeek容器化部署(vLLM+Open WebUI)魔搭模型版
vllm
执笔论英雄3 天前
【vllm 】WorkerProc WorkerWrapperBase GPU worker之间的关系
vllm
hongyuyahei3 天前
绝对/相对位置编码
vllm
d1z8884 天前
(十七)32天GPU测试从入门到精通-vLLM 部署与性能测试day15
服务器·显卡·nvidia·vllm
谢白羽6 天前
vllm抢占机制详解
算法·vllm
从零开始学习人工智能6 天前
vLLM 多卡部署技巧:如何单独降低某张 GPU 的显存占用
vllm
执笔论英雄7 天前
【vllm】PD分离
vllm