在昇腾Atlas 300I Duo+openEuler上部署vLLM并进行推理的流程(一)

这篇博客也是参考了一下别人的文章:https://hwcomputing.csdn.net/69da751c0a2f6a37c59ee280.html

发现还是有一些坑。首先,需要参考vllm-ascend这个项目:https://github.com/vllm-project/vllm-ascend,其文档对需要的各个版本条件已经总结得比较清楚了:https://docs.vllm.ai/projects/ascend/en/latest/installation.html

从上面这个页面中可以看到,比较方便的还是下载对应的Docker镜像。

第一篇博客里教了我们查看NPU型号的方法:

bash 复制代码
npu-smi info -t product -i 1

可以看到确实是Atlas 300I Duo:

根据上面第三个网页中,我这里应该下载的镜像是:vllm-ascend:v0.18.0rc1-310p-openeuler

所以运行(选择南大的镜像):

bash 复制代码
docker pull --platform linux/arm64 quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0rc1-310p-openeuler

但是我这里就遇到了一个问题:不知道服务器的网络配置是有什么问题,这个服务器下载特别慢,但是我的PC是可以正常下载的。所以需要配置一下docker代理(IP地址是我们内网地址):

bash 复制代码
sudo mkdir -p /etc/systemd/system/docker.service.d

sudo tee /etc/systemd/system/docker.service.d/http-proxy.conf >/dev/null <<'EOF'
[Service]
Environment="HTTP_PROXY=http://10.220.109.32:10811"
Environment="HTTPS_PROXY=http://10.220.109.32:10811"
Environment="NO_PROXY=localhost,127.0.0.1"
EOF

然后再重启一下docker服务:

bash 复制代码
sudo systemctl daemon-reload
sudo systemctl restart docker

发现再运行docker pull,速度就很快了。

下载好镜像之后,就可以启动docker镜像了:

参考第一个链接里的命令,我运行了下面的命令:

bash 复制代码
docker run -it \
--name vllm-ascend \
--shm-size=1g \
--privileged \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root:/root \
-p 8000:8000 \
 quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0rc1-310p-openeuler

发现可以成功启动镜像,得到如下的一些输出:

到这一步我们的镜像就可以正常启动了,接下来就是加载模型并进行推理,我准备放到下一篇博客再总结。

相关推荐
蔡不菜和他的uU们14 小时前
vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio
人工智能·ssh·vllm
likerhood20 小时前
服务器使用 vLLM 部署 Qwen2.5-Coder-7B-CL 笔记
服务器·笔记·vllm
一只努力的微服务20 小时前
vLLM vs SGLang 深度技术对比
vllm·sglang
做个文艺程序员3 天前
第08篇:K8s 部署 AI 大模型推理服务:GPU 调度 × vLLM × Java 客户端集成——从 0 到生产的完整方案
人工智能·kubernetes·vllm
reset20213 天前
vllm性能优化
性能优化·vllm
我叫张土豆4 天前
V100 显卡部署 Qwen3-ASR-1.7B 语音识别模型(vLLM + Docker 完整教程)
docker·语音识别·vllm
碳基硅坊4 天前
MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测
人工智能·vllm·llama.cpp·模型加速·mtp
Soonyang Zhang4 天前
vllm分析(八)——deepseek v4 Attention (SWA + CSA + HCA)
vllm·推理框架·kv cache
Soonyang Zhang5 天前
vllm分析(七)——模型结构分析(llama, qwen3moe)
vllm·推理框架
陈 洪 伟5 天前
大模型推理引擎vLLM(25): 从--kv-cache-dtype fp8_e5m2时gsm8k答非所问的bug梳理kv cache相应代码片段
vllm·kvcache