yolo26 部署瑞芯微rk3588、RKNN部署工程难度小、模型推理速度快

2026年1月15日yolo26 开源了,基于对yolo部署尚且还有的些许热情,还是继续部署搞一下。从2020年yolov5开始,到2025年的yolov13,再到今年2026年的yolo26,用过或没用过每个版本都部署过。自己实际使用的v5、v6、v7、v8,加上这两年没有怎么做单目2D目标检测,从v9及其之后的版本就属于兴趣驱使的去学习了解。

特别说明:如有侵权告知删除,谢谢。

完整代码:包括onnx转rknn和测试代码、rknn板端部署C++代码
【onnx转rknn和测试代码】
【rknn板端部署C++代码】

1 模型训练

yolo26 训练参考官方代码。

2 导出 yolo26 onnx

导出onnx修改以下几处,和之前的导出yolov8、yolov11、yolov12、yolov13类似,修改输出头代码,增加保存onnx的代码。之前有网友留言问为啥不能基于官方提供的导出onnx,用官方代码导出的onnx对部署板端芯片说时候通用性(可能部分板端芯片不支持后处理中的部分操作)和性能(对部分板端芯片后处理操虽然也在转换成功了,但可能是用cpu做的)不是很友好。

第一处:修改导出onnx的检测头

python 复制代码
        # 导出 onnx 增加
        y = []
        for i in range(self.nl):
            t1 = box_head[i](x[i])
            t2 = cls_head[i](x[i])
            y.append(t1)
            y.append(t2)
        return y
python 复制代码
        # 导出 onnx 增加
        return one2one

在部署时这里第一次导出错了,用的one2many,推理onnx结果有很多框(像是没有进行nms的效果),于是把nms加上检测结果看着很正常(心中满是疑惑和奇怪,端到端的怎么需要nms);还有就是onnx的可视化结果和pytorch结果不一致,猜测权重加载错了,于是测试了官方导出的onnx结果和pytorch结果一致,可以确认这一步哪里有问题;于是return one2one导出onnx,测试结果正常,不需要nms,且和pytorch一致。

第二处:增加保存onnx代码

python 复制代码
        print("===========  onnx =========== ")
        import torch
        dummy_input = torch.randn(1, 3, 640, 640)
        input_names = ["data"]
        output_names = ["output1", "output2", "output3", "output4", "output5", "output6"]
        torch.onnx.export(self.model, dummy_input, "/root/autodl-tmp/zhangqian/yolo26/ultralytics/yolov26n_onnx/yolo26_80class_ZQ.onnx",
                          verbose=False, input_names=input_names, output_names=output_names, opset_version=11)
        print("======================== convert onnx Finished! .... ")

有网友曾问按照博客导出的onnx,用博客中的代码测试结果不正常,而用博客中提供的onnx结果正常,是由于推理onnx时模型输出的顺序不是"output1、output2、output3、output4、output5、output6"这个顺序,可能是"output2、output1、output4、output3、output6、output5",后处理代码取的时候调整一下即可,特别是上芯片后的顺序变的可能性更大。最好的办法是打印一下维度,根据输出维度调整一下取值的顺序。

修改完以上两处,运行以下代码:

python 复制代码
from ultralytics import YOLO
model = YOLO(model='yolo26n.pt')  # load a pretrained model (recommended for training)
results = model(task='detect', source='./test.jpg', save=True)  # predict on an image

特别说明: 修改完以上两处运行可能会会报错,但不影响onnx的生成;生成onnx后强烈建议用from onnxsim import simplify 处理一下再转rknn。

3 测试onnx效果

pytorch效果

onnx效果

pytorch效果和onnx效果是一致的。

4 onnx转rknn

onnx转rknn代码链接

转rknn后仿真结果

5 rk3588板子测试yolo26模型

使用的 rknn_toolkit 版本:rknn_toolkit2-2.2.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl

C++代码中的库和工具链的版本注意对应适配。

1)编译

复制代码
cd examples/rknn_yolo26_open

bash build-linux_RK3588.sh

2)运行

复制代码
cd install/rknn_yolo_demo_Linux

./rknn_yolo_demo 

注意:修改模型、测试图像、保存图像的路径,修改文件为src下的main.cc

复制代码
int main(int argc, char **argv)
{
    char model_path[256] = "/home/zhangqian/rknn/examples/rknn_yolo26_demo_open/model/RK3588/yolo26n_80class_ZQ.rknn";
    char image_path[256] = "/home/zhangqian/rknn/examples/rknn_yolo26_demo_open/test.jpg";
    char save_image_path[256] = "/home/zhangqian/rknn/examples/rknn_yolo26_demo_open/test_result.jpg";

    detect(model_path, image_path, save_image_path);
    return 0;
}

3)板端效果和时耗

后处理中代码对于输出80个类别,同样先选择最大类别值,然后再进行反量化,最后只对这一个类别值进行sigmoid,这样后处理的时耗加速很多。最初也是按照对类别每个输出值都反量化和sigmoid,再判断是否大于阈值,经过先选最大值的方式后处理时耗有一定优化。

相关推荐
啊阿狸不会拉杆1 小时前
《数字图像处理》第 1 章 绪论
图像处理·人工智能·算法·计算机视觉·数字图像处理
张3蜂2 小时前
YOLOv8:下一代实时目标检测的全面解析
人工智能·yolo·目标检测
PeterClerk2 小时前
数据挖掘方向 CCF 期刊推荐(数据库 / 数据挖掘 / 内容检索)
数据库·人工智能·深度学习·数据挖掘·计算机期刊
木头程序员2 小时前
持续学习(Continual/Lifelong Learning)综述
大数据·人工智能·深度学习·机器学习
程途拾光1582 小时前
模型微调 vs 上下文学习的成本效益对比
人工智能·深度学习·机器学习
中國龍在廣州2 小时前
35天,成了AI 模型的斩杀线
大数据·人工智能·深度学习·算法·机器人
童话名剑10 小时前
人脸识别(吴恩达深度学习笔记)
人工智能·深度学习·人脸识别·siamese网络·三元组损失函数
Fasda1234511 小时前
YOLOv11改进__设备清洁状态检测HAFB2模型实现
yolo
Dev7z11 小时前
基于深度学习的车辆分类方法研究与实现-填补国内新能源车型和品牌识别空白
深度学习·yolo