NPU上运行onnxruntime

1 问题背景

在Ascend环境上,使用onnxruntime推理时,报错:

vbnet 复制代码
/onnxruntime_src/onnxruntime/core/session/provider_bridge_ort.cc:1193 onnxruntime::Provider& onnxruntime::ProviderLibrary::Get() [ONNXRuntimeError] : 1 : FAIL : Failed to load library libonnxruntime_providers_cuda.so 
with error: libcudart.so.11.0: cannot open shared object file: No such file or directorys

显示的是cuda的组件找不到。由于是Ascend环境,肯定是没有GPU的,很明显是onnxruntime的包装错了。

sql 复制代码
pip show onnxruntime-gpu

通过如上命令,可以看到环境上确实安装的是gpu版本的。这里先卸载onnxruntime-gpu。

2 解决办法

通过查找onnxruntime社区,可以发现npu已经对onnxruntime进行了适配,参考如下文档:

onnxruntime/docs/execution-providers/community-maintained/CANN-ExecutionProvider.md at gh-pages · microsoft/onnxruntime

那么该如何才能构建onnxruntime适配Ascend上的whl包呢?

这里提供源码构建的办法:

2.1 克隆源码

bash 复制代码
git clone https://github.com/microsoft/onnxruntime.git
cd onnxruntime

2.2 构建whl包

注意--use_cann参数

bash 复制代码
# 先初始化CANN环境
source /usr/local/Ascend/ascend-toolkit/set_env.sh
 
# 执行build脚本
./build.sh --config Release --build_shared_lib --parallel --use_cann --build_wheel

若构建成功,whl包会生成在build/Linux/Release/dist/目录下。安装onnxruntime-cann

复制代码
pip3 install onnxruntime_cann-x.xx.x-xxxx-xxxxx-xxxxx_xxx_xx.whl

3 推理示例

ini 复制代码
import numpy as np
import onnxruntime as ort
 
# 模型路径
model = "./resnet34.onnx"
 
# 以CANN作为EP的配置,参数说明可见:https://github.com/microsoft/onnxruntime/blob/gh-pages/docs/execution-providers/community-maintained/CANN-ExecutionProvider.md
providers = [
    ("CANNExecutionProvider", {
        "device_id": 0,                                 
        "arena_extend_strategy": "kNextPowerOfTwo",     
        "npu_mem_limit": 4 * 1024 * 1024 * 1024,
        "enable_cann_graph": True,
    }),
]
 
# options可以用来对推理session进行配置,例如开启profiling功能
options = ort.SessionOptions()
 
# 创建推理session
session = ort.InferenceSession(model, providers=providers, sess_options=options)
 
# 构造纯推理数据
ndata = np.zeros([1, 3, 224, 224], dtype=np.float32)
 
# 执行推理
session.run(["class"], {"image": ndata}])
相关推荐
深兰科技8 分钟前
廊坊市市长刘媛率队到访深兰科技,推动机器人制造基地与产业投资落地
人工智能·科技·机器人·scala·symfony·深兰科技·廊坊市市长刘媛
沫儿笙9 分钟前
发那科机器人在氩弧焊中搭配节气装置的优势
人工智能·机器人
m0_650108244 小时前
【论文精读】CMD:迈向高效视频生成的新范式
人工智能·论文精读·视频扩散模型·高效生成·内容 - 运动分解·latent 空间
电鱼智能的电小鱼4 小时前
基于电鱼 AI 工控机的智慧工地视频智能分析方案——边缘端AI检测,实现无人值守下的实时安全预警
网络·人工智能·嵌入式硬件·算法·安全·音视频
年年测试4 小时前
AI驱动的测试:用Dify工作流实现智能缺陷分析与分类
人工智能·分类·数据挖掘
唐兴通个人5 小时前
人工智能Deepseek医药AI培训师培训讲师唐兴通讲课课程纲要
大数据·人工智能
共绩算力6 小时前
Llama 4 Maverick Scout 多模态MoE新里程碑
人工智能·llama·共绩算力
DashVector7 小时前
向量检索服务 DashVector产品计费
数据库·数据仓库·人工智能·算法·向量检索
AI纪元故事会7 小时前
【计算机视觉目标检测算法对比:R-CNN、YOLO与SSD全面解析】
人工智能·算法·目标检测·计算机视觉
音视频牛哥7 小时前
从协议规范和使用场景探讨为什么SmartMediaKit没有支持DASH
人工智能·音视频·大牛直播sdk·dash·dash还是rtmp·dash还是rtsp·dash还是hls