昇腾910B4、openEuler上使用vLLM-Ascend部署Qwen3.6模型的流程

这篇博客承接之前这篇:https://blog.csdn.net/qysh123/article/details/160962233

其实内容是比较简单的,也是参考了其他朋友的博客:https://blog.csdn.net/weixin_45724433/article/details/160470026

首先,下载相应的Docker镜像,例如我这里下载v0.18.0的版本:

bash 复制代码
docker pull quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0-openeuler

其次,下载Qwen3.6的模型到本地(我这里使用modelscope速度很快):

bash 复制代码
modelscope download --model Qwen/Qwen3.6-35B-A3B --local_dir ./Qwen3.6-35B-A3B

然后用类似这种命令:

bash 复制代码
sudo lsof -i :8002

查看一下空闲的端口。然后参考上面这篇博客:

bash 复制代码
docker run -it \
  --name qwen3_6_vllm \
  --privileged \
  --shm-size=64g \
  -v /usr/local/Ascend:/usr/local/Ascend \
  -v /dev:/dev \
  -v /root/ProjectsQuYu/Qwen3.6-35B-A3B:/models \
  -v /root:/root \
  -p 8002:8000 \
  quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0-openeuler \
  Bash

其中模型的位置要根据自己存放模型文件的位置改。果不其然报错了,呵呵呵:

bash 复制代码
--: line 1: exec: Bash: not found

写博客的作者也太不细心了吧,应该用小写的bash。

如果能在启动image的同时启动vllm服务更好,所以试着这样写:

bash 复制代码
docker run -itd \
  --name qwen3_6_vllm \
  --privileged \
  --shm-size=64g \
  -v /usr/local/Ascend:/usr/local/Ascend \
  -v /dev:/dev \
  -v /root/ProjectsQuYu/Qwen3.6-35B-A3B:/models \
  -p 8002:8000 \
  quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0-openeuler \
  python3 -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8000 --model /models --dtype half

这里加了一个参数d,表示静默运行,可以输入:

bash 复制代码
docker logs -f qwen3_6_vllm

查看输出,结果发现又报错了:

bash 复制代码
RuntimeError: NPU out of memory. Tried to allocate 1.00 GiB (NPU 0; 60.96 GiB total capacity; 59.89 GiB already allocated; 59.89 GiB current active; 692.09 MiB free; 59.91 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.

这个错误真是不应该啊,不禁想问前面这个作者真的跑起来了吗?

把容器删除:

bash 复制代码
docker rm -f qwen3_6_vllm

重新启动并指定8个NPU:

bash 复制代码
docker run -itd \
  --name qwen3_6_vllm \
  --privileged \
  --shm-size=64g \
  -v /usr/local/Ascend:/usr/local/Ascend \
  -v /dev:/dev \
  -v /root/ProjectsQuYu/Qwen3.6-35B-A3B:/models \
  -p 8002:8000 \
  quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0-openeuler \
  python3 -m vllm.entrypoints.openai.api_server \
    --host 0.0.0.0 \
    --port 8000 \
    --model /models \
    --dtype half \
    --tensor-parallel-size 8

然后就可以看到正常运行了,使用curl测试一下:

bash 复制代码
curl http://10.220.96.105:8002/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/models",
    "prompt": "你好,你可以用作编程任务吗?",
    "max_tokens": 128,
    "temperature": 0.7
  }'

就可以看到输出了(怎么感觉速度很慢)。可能的改进方向:

关于数据类型,从我这边一次报错中可以看出来:

choose from 'auto', 'bfloat16', 'float', 'float16', 'float32', 'half'

bfloat16应该比half感觉要更快一些。

另外,Qwen 3.6是多模态模型,如果"跳过视觉编码器和多模态分析"(https://www.modelscope.cn/models/Qwen/Qwen3.6-35B-A3B)应该会更快一些。但我不确定在vLLM-Ascend上应该怎么设置。

就先简单总结这么多。

相关推荐
像风一样自由20205 小时前
17.推理框架横评:vLLM / TGI / TensorRT-LLM / SGLang 全面对比
人工智能·大模型·vllm·sglang
昇腾CANN9 小时前
6月15号新课开讲|HCCL入门系列课,正式上线!
人工智能·开源·昇腾·cann
rebibabo9 小时前
KV Cache 与 PagedAttention 详解:理论推导 + RTX 3090 实测数据
人工智能·vllm·推理加速·大模型部署·kvcache
汤姆yu12 小时前
云知声 U2 原生智能体大模型深度解析
大数据·人工智能·算法·ai·大模型·多模态·智能体
ifenxi爱分析1 天前
数据质量不过关,AI决策是空转
大模型·数据
Mr.朱鹏1 天前
科技资讯日报 · 2026-06-12
科技·ai·大模型·业界资讯
微学AI1 天前
时序大模型 TimechoAI 赋能工业时序数据底层技术优势与实操
数据库·大模型·时序大模型
xin_yao_xin1 天前
Claude Code 安装与 DeepSeek-V4 模型配置(2026 最新)
人工智能·ai·大模型·deepseek·claude code