昇腾910B4、openEuler上使用vLLM-Ascend部署Qwen3.6模型的流程

这篇博客承接之前这篇:https://blog.csdn.net/qysh123/article/details/160962233

其实内容是比较简单的,也是参考了其他朋友的博客:https://blog.csdn.net/weixin_45724433/article/details/160470026

首先,下载相应的Docker镜像,例如我这里下载v0.18.0的版本:

bash 复制代码
docker pull quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0-openeuler

其次,下载Qwen3.6的模型到本地(我这里使用modelscope速度很快):

bash 复制代码
modelscope download --model Qwen/Qwen3.6-35B-A3B --local_dir ./Qwen3.6-35B-A3B

然后用类似这种命令:

bash 复制代码
sudo lsof -i :8002

查看一下空闲的端口。然后参考上面这篇博客:

bash 复制代码
docker run -it \
  --name qwen3_6_vllm \
  --privileged \
  --shm-size=64g \
  -v /usr/local/Ascend:/usr/local/Ascend \
  -v /dev:/dev \
  -v /root/ProjectsQuYu/Qwen3.6-35B-A3B:/models \
  -v /root:/root \
  -p 8002:8000 \
  quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0-openeuler \
  Bash

其中模型的位置要根据自己存放模型文件的位置改。果不其然报错了,呵呵呵:

bash 复制代码
--: line 1: exec: Bash: not found

写博客的作者也太不细心了吧,应该用小写的bash。

如果能在启动image的同时启动vllm服务更好,所以试着这样写:

bash 复制代码
docker run -itd \
  --name qwen3_6_vllm \
  --privileged \
  --shm-size=64g \
  -v /usr/local/Ascend:/usr/local/Ascend \
  -v /dev:/dev \
  -v /root/ProjectsQuYu/Qwen3.6-35B-A3B:/models \
  -p 8002:8000 \
  quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0-openeuler \
  python3 -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8000 --model /models --dtype half

这里加了一个参数d,表示静默运行,可以输入:

bash 复制代码
docker logs -f qwen3_6_vllm

查看输出,结果发现又报错了:

bash 复制代码
RuntimeError: NPU out of memory. Tried to allocate 1.00 GiB (NPU 0; 60.96 GiB total capacity; 59.89 GiB already allocated; 59.89 GiB current active; 692.09 MiB free; 59.91 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.

这个错误真是不应该啊,不禁想问前面这个作者真的跑起来了吗?

把容器删除:

bash 复制代码
docker rm -f qwen3_6_vllm

重新启动并指定8个NPU:

bash 复制代码
docker run -itd \
  --name qwen3_6_vllm \
  --privileged \
  --shm-size=64g \
  -v /usr/local/Ascend:/usr/local/Ascend \
  -v /dev:/dev \
  -v /root/ProjectsQuYu/Qwen3.6-35B-A3B:/models \
  -p 8002:8000 \
  quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0-openeuler \
  python3 -m vllm.entrypoints.openai.api_server \
    --host 0.0.0.0 \
    --port 8000 \
    --model /models \
    --dtype half \
    --tensor-parallel-size 8

然后就可以看到正常运行了,使用curl测试一下:

bash 复制代码
curl http://10.220.96.105:8002/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/models",
    "prompt": "你好,你可以用作编程任务吗?",
    "max_tokens": 128,
    "temperature": 0.7
  }'

就可以看到输出了(怎么感觉速度很慢)。可能的改进方向:

关于数据类型,从我这边一次报错中可以看出来:

choose from 'auto', 'bfloat16', 'float', 'float16', 'float32', 'half'

bfloat16应该比half感觉要更快一些。

另外,Qwen 3.6是多模态模型,如果"跳过视觉编码器和多模态分析"(https://www.modelscope.cn/models/Qwen/Qwen3.6-35B-A3B)应该会更快一些。但我不确定在vLLM-Ascend上应该怎么设置。

就先简单总结这么多。

相关推荐
格桑阿sir7 小时前
AI系列文章导航目录-持续更新中
ai·大模型·llm·agent·智能体·应用开发
不懒不懒7 小时前
【基于讯飞语音识别 + DeepSeek 大模型的课堂视频智能转写与分析系统】
大模型·llm·llama·moviepy·智慧课堂·deepseek3
weixin_553654488 小时前
Claude 4.7 的“逻辑美学” vs GPT-5 的“暴力推理”:2026 核心业务代码审计该用谁?
人工智能·gpt·ai·大模型·token
路远_68 小时前
Java 后端开发者如何理解大模型应用架构
java·架构·大模型·agent
Everybody_up8 小时前
大模型开发中format_messages、invoke、format三种方法的对比
人工智能·python·大模型
codefan※9 小时前
day04-prompt-pitfalls
人工智能·大模型·llm·prompt·prompt工程·ai应用开发
悟空码字13 小时前
延迟、吞吐、显存,开源模型部署的终极调优笔记
ai·大模型·本地部署
格桑阿sir17 小时前
04-大模型智能体开发工程师:Tokenization与模型推理流程
ai·大模型·llm·agent·token·智能体·tokenization
lookaroundd21 小时前
llm-compressor添加新量化策略 -- 邪修方法
vllm·大模型量化·llm-compressor