AMD显卡运行qwen3.5-使用VLLM

1、下载镜像

docker pull docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0

2、自定义docker镜像

复制代码
FROM docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0
RUN pip install modelscope>=1.18.1

docker build -t my-vllm-with-modelscope:v0.18.0 .

3、运行

复制代码
docker run --rm \
  --name vllm_qwen35 \
  --device=/dev/kfd --device=/dev/dri \
  --security-opt seccomp=unconfined \
  --group-add video \
  --ipc=host \
  -p 8000:8000 \
  -v /home/vllm:/root/.cache/modelscope \
  -e VLLM_USE_MODELSCOPE=True \
  my-vllm-with-modelscope:nightly  \
  --model tclf90/Qwen3.5-9B-AWQ \
  --language-model-only \
  --tensor-parallel-size 1 \
  --reasoning-parser qwen3 \
  --enable-prefix-caching \
 --max-model-len 32768
相关推荐
清风lsq3 小时前
大模型-vllm 自投机解码可行性分析
vllm·大模型推理
大模型推理3 小时前
《Nano-vLLM 源码解读》第 12 篇 · ModelRunner:从 prompt 到 token(二)
vllm
清风lsq1 天前
大模型-解析vllm lora 模块
人工智能·vllm·大模型推理
大模型推理1 天前
《Nano-vLLM 源码解读》第 11 篇 · ModelRunner:从 prompt 到 token
vllm
zhangfeng11332 天前
vLLM + AWQ 是什么,为什么有算力架构要求 为什么v100默认不支持
人工智能·语言模型·显卡·vllm
SpikeKing3 天前
LLM - 支持 Hermes 智能体的 vLLM 部署 Qwen3.5 与 Qwen3.6 方案
llm·vllm·qwen3.5·hermes·qwen3.6
zhojiew3 天前
在Ray集群中使用vLLM部署LLM模型并集成Prometheus和Grafana进行指标观测的实践
grafana·prometheus·vllm
不吃天鹅肉3 天前
PaddleOCR-VL + vLLM 高性能推理实践:踩坑与调优全记录
人工智能·语言模型·svm·vllm
张忠琳3 天前
【vllm】(vllm kv_offload)vLLM V1 KV Offload—(二)核心业务逻辑逐行解析
ai·架构·vllm
张忠琳4 天前
【vllm】(v1 Attention)vLLM V1 Attention—Part1 架构总览与核心调度
ai·架构·vllm