在昇腾Atlas 300I Duo+openEuler上部署vLLM并进行推理的流程(一)

这篇博客也是参考了一下别人的文章:https://hwcomputing.csdn.net/69da751c0a2f6a37c59ee280.html

发现还是有一些坑。首先,需要参考vllm-ascend这个项目:https://github.com/vllm-project/vllm-ascend,其文档对需要的各个版本条件已经总结得比较清楚了:https://docs.vllm.ai/projects/ascend/en/latest/installation.html

从上面这个页面中可以看到,比较方便的还是下载对应的Docker镜像。

第一篇博客里教了我们查看NPU型号的方法:

bash 复制代码
npu-smi info -t product -i 1

可以看到确实是Atlas 300I Duo:

根据上面第三个网页中,我这里应该下载的镜像是:vllm-ascend:v0.18.0rc1-310p-openeuler

所以运行(选择南大的镜像):

bash 复制代码
docker pull --platform linux/arm64 quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0rc1-310p-openeuler

但是我这里就遇到了一个问题:不知道服务器的网络配置是有什么问题,这个服务器下载特别慢,但是我的PC是可以正常下载的。所以需要配置一下docker代理(IP地址是我们内网地址):

bash 复制代码
sudo mkdir -p /etc/systemd/system/docker.service.d

sudo tee /etc/systemd/system/docker.service.d/http-proxy.conf >/dev/null <<'EOF'
[Service]
Environment="HTTP_PROXY=http://10.220.109.32:10811"
Environment="HTTPS_PROXY=http://10.220.109.32:10811"
Environment="NO_PROXY=localhost,127.0.0.1"
EOF

然后再重启一下docker服务:

bash 复制代码
sudo systemctl daemon-reload
sudo systemctl restart docker

发现再运行docker pull,速度就很快了。

下载好镜像之后,就可以启动docker镜像了:

参考第一个链接里的命令,我运行了下面的命令:

bash 复制代码
docker run -it \
--name vllm-ascend \
--shm-size=1g \
--privileged \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root:/root \
-p 8000:8000 \
 quay.nju.edu.cn/ascend/vllm-ascend:v0.18.0rc1-310p-openeuler

发现可以成功启动镜像,得到如下的一些输出:

到这一步我们的镜像就可以正常启动了,接下来就是加载模型并进行推理,我准备放到下一篇博客再总结。

相关推荐
Anesthesia丶2 天前
Qwen2.5-1.5b 模型部署与LORA训练笔记
pytorch·python·lora·llm·qwen·vllm
张忠琳3 天前
【vllm】(五)vLLM v1 Attention — 模块超深度分析之五
ai·架构·vllm
张忠琳3 天前
【vllm】(五)vLLM v1 Attention — 模块超深度分析之二
人工智能·深度学习·ai·架构·vllm
Zzj_tju4 天前
大语言模型部署实战:从 Ollama、vLLM 到 SGLang,本地服务到底怎么搭?
人工智能·语言模型·自然语言处理·vllm
youzj09254 天前
vllm安装到dgx spark上
vllm
张忠琳4 天前
【vllm】(二)vLLM v1 Engine — 模块超深度逐行分析之二
ai·架构·vllm
张忠琳5 天前
【vllm】(四)vLLM v1 Worker — 模块超深度逐行分析之三
ai·架构·vllm
张忠琳5 天前
【vllm】(三)vLLM v1 Core — 模块超深度逐行分析之二
ai·架构·vllm
张忠琳5 天前
【vllm】(三)vLLM v1 Core — 模块超深度逐行分析之三
ai·架构·vllm