【秣厉科技】LabVIEW工具包——OpenCV 教程(6):dnn实战之YOLO模型推理

文章目录

  • 前言
  • [dnn 模块](#dnn 模块)
  • 一、经典YOLOv5
    • [1. 训练模型并转化为ONNX](#1. 训练模型并转化为ONNX)
    • [2. 图片预处理](#2. 图片预处理)
    • [3. 推理过程](#3. 推理过程)
    • [4. 结果分析](#4. 结果分析)
    • [5. 后处理](#5. 后处理)
      • [5.1 去冗余](#5.1 去冗余)
      • [5.2 可视化](#5.2 可视化)
    • [6. 连续推理](#6. 连续推理)
  • 二、新版YOLO11
    • [1. 训练模型并转化为ONNX](#1. 训练模型并转化为ONNX)
    • [2. 对比YOLO11与YOLOv5](#2. 对比YOLO11与YOLOv5)
    • [3. 修改"后处理",以适配YOLO11](#3. 修改“后处理”,以适配YOLO11)
    • [4. 完整YOLO11推理过程](#4. 完整YOLO11推理过程)
  • 总结

前言

  1. 需要下载安装OpenCV工具包的朋友,请前往 此处
  2. 系统要求:Windows系统,LabVIEW>=2018,兼容32位和64位。

dnn 模块

查找函数选板>>Addons>>Molitec>>OpenCV>>dnn ,如下图。

本文主要用到 Net 类,以及 blobFromImage 和 NMSBoxes 函数。


一、经典YOLOv5

1. 训练模型并转化为ONNX

  • 训练

YOLOv5 项目文件下载地址:https://github.com/ultralytics/yolov5

通过 Python + PyTorch 训练YOLOv5模型。Python不是我的行当,这部分大家自己去"折腾"吧。本例将直接使用官方提供的预训练模型:yolov5s.pt 。(后缀 s 代表 small,即小型)它使用 coco 训练集,可以识别80类物体。

  • 转化

OpenCV的Net类支持载入多种模型,但不支持 .pt 类型。所以得到模型后,首先要将其转化成ONNX格式。

在YOLOv5工程根目录下有一个export.py,可以用来做模型转化。

yolov5s.pt 拷贝到工程根目录下,并在此目录下打开命令终端,然后执行:

bash 复制代码
python export.py --weights yolov5s.pt --include onnx --imgsz 640 --device cpu

(环境参考:Python3.7 + torch1.13.1 + onnx1.14.1, torch版本不能太高,否则会出问题)

执行完成后,会在同路径下生成 yolov5s.onnx 模型文件。


2. 图片预处理

YOLOv5 网络模型的输入层,是一个(1 * 3 * 640 * 640)的四维 Blob(用Mat类实现),用来代表一张经过预处理的彩色图片。1 代表batch数量,3代表通道数,后面两位是图片的尺寸。

使用 dnn 模块的 blobFromImage 函数实现图片预处理,如下图。

图片需要归一化,所以 scalefactor 设为 1/255。输出尺寸设为640 * 640,其余参数按默认值。


3. 推理过程

使用 dnn 模块的Net类,实现YOLOv5模型推理。依次用到的Net内置函数:new、setInput、forward、delete。

一次简单的推理过程如下图。(暂不支持GPU加速,请等待后续更新)


4. 结果分析

YOLOv5 网络模型的输出层,是一个(1 * 25200 * 85)的三维 Blob,用来表示一张图片的全部推理结果。

使用 to_LV 将该Blob读取到LabVIEW中,并降维成 25200 * 85 的二维数组。

该数组一共25200行,代表25200个识别结果。

每行有85个元素,依次代表:cx,cy,w,h,conf,p0 ~ p79。

其中cx、cy是矩形框中心坐标,w、h是矩形框的宽和高,conf是框置信度,p0 ~ p79 依次是80个分类的概率。


5. 后处理

5.1 去冗余

上文所述,YOLOv5 对一张图片的推理结果,达25200个之多,这其中存在大量的冗余。

去除冗余的方法叫做 "非极大抑制" (NMS),也就是从重叠的矩形框中,筛选出最大且置信度最高的一个。

使用 dnn 模块的 NMSBoxes 函数实现该功能,如下图。

注意,输入bboxes中每个矩形的x,y是左上点,而模型输出的cx,cy是中心点,所以需要计算转换一下。scores是每个矩形的置信度,刚好对应上文中代表 conf 的那一列,直接连过去作为scores输入。

  • NMSBoxes 函数的输入输出:
输入 类型 含义
bboxes 二维数组 当列数为4时,每行4个数代表一个矩形 Rect(x, y, w, h); 当列数为5时,每行5个数代表一个旋转矩形 RotatedRect( cx, cy, w, h, angle); 当列数为6时,每行6个数代表一个旋转矩形 RotatedRect( x1, y1, x2, y2, x3, y3);
scores 一维数组 对应bboxes中每个矩形框的置信度;
params score_threshold 是置信度阈值; nms_threshold 是NMS阈值; eta 是调节 NMS 阈值的衰减因子(默认设为1) top_k 是最大保留数(等于0时忽略)
输出 类型 含义
indices 一维数组 通过 NMS 筛选后,保留下来的矩形框索引(在bboxes中的行序号)

5.2 可视化

可视化的任务,是在原图片中画出经过筛选的识别框、分类名称和概率,以便更直观地体现 dnn 推理结果。

注意,YOLOv5 网络输出的矩形框坐标,是基于预处理尺寸 640 * 640 而言的。因此,在原图片上绘制之前,需要经过尺度转化。

然后,在对应的 p0 ~ p79 中,找出最大概率的所在位置,就是分类序号,据此从名称列表里找到具体分类名称。

实现过程如下图所示。(NMS之前,提取bboxes和scores的过程,已封装成子VI)


至此,一次完整的 "预处理 + 推理 + 后处理" 过程全部完成,整体算法流程如下图。

(可视化过程已封装成子VI。 fit_to_center.vi 让picture控件自适应缩放并居中,详见 教程(3))


6. 连续推理

利用LabVIEW的循环结构,从摄像头连续采样,并实时进行 YOLOv5 推理。

请参考工具包附带的范例:examples/Molitec/OpenCV/dnn/Net_3 (ONNX_yolov5_Camera).vi

注意,多个Mat对象只需在While循环外初始化一次,然后在循环中重复使用,从而避免占用大量内存。


二、新版YOLO11

没错,它叫YOLO11,不带 v 的。

1. 训练模型并转化为ONNX

  • 训练

YOLO11 项目文件下载地址:https://github.com/ultralytics/ultralytics/tree/main

YOLO11 训练模型,可以使用集成度更高的 ultralytics 库,支持的 Python 版本为3.8 ~ 3.12。

同样,训练过程请自行完成。本例将直接使用官方提供的预训练模型:yolo11s.pt ,依然是80分类。

  • 转化

同样要将 .pt 模型转化成ONNX格式。YOLO11 可以通过 Python 调用 ultralytics 库进行转化:

python 复制代码
from ultralytics import YOLO

model = YOLO("yolo11s.pt")

path = model.export(format="onnx")

(环境参考:Python3.12 + ultralytics8.3.86 + torch2.6.0 + onnx1.17.0 + onnxslim0.1.48 + onnxruntime1.21.0)

path 返回 onnx 文件路径。转化过程输出如下:


2. 对比YOLO11与YOLOv5

从上述转化过程的输出信息中,可以看出YOLO11与YOLOv5的输入层是一样的形状(1 * 3 * 640 * 640),二者的区别在输出层上。

YOLO11 的输出层:(1 * 84 * 8400)

YOLOv5 的输出层:(1 * 25200 * 85)

降维成2D后,YOLO11 的输出是 84行 * 8400列,每一列作为一个结果。而 YOLOv5 是每一行作为一个结果。

YOLO11 每一列的 84 个元素,依次代表 cx、cy、w、h、p0 ~ p79。与 YOLOv5 相比,没有框置信度conf。

采用相同的 "预处理",进行一次 YOLO11 推理,观察返回结果。如下图。


3. 修改"后处理",以适配YOLO11

如上文所述,YOLO11 相比 YOLOv5,其主要区别在于输出层。因此只需修改 "后处理" 过程。

  • 既然 YOLO11 是每列代表一个结果,那么直接将2D数组转置,这样就在方向上与 YOLOv5 一致;
  • 既然 YOLO11 没有框置信度,就用p0~p79中的最大值作为conf,插入到对应位置,这样就在数量上与 YOLOv5 一致;
  • 如此改造后,就可以直接沿用上文中 YOLOv5 的后处理子VI。
    (但此时,NMSBoxes 的 score_threshold 参数含义将变为类别概率阈值)

修改后的算法如下图。(其实修改方法不唯一,大家自己或许有更好的方案)


4. 完整YOLO11推理过程

一次完整的 YOLO11 推理过程如下图。连续推理过程,请参照 YOLOv5 ,尝试自行编写。


总结

  1. 本系列博文作为LabVIEW工具包---OpenCV的教程,将以专栏的形式陆续发布和更新。
  2. 对工具包感兴趣的朋友,欢迎下载试用:秣厉科技 - LabVIEW工具包 - OpenCV
  3. 各位看官有什么想法、建议、吐槽、批评,或新奇的需求,也欢迎留言讨论。
相关推荐
深圳市快瞳科技有限公司2 小时前
AI鸟类识别技术革新生态监测:快瞳科技如何用“智慧之眼”守护自然?
人工智能·科技
ModelWhale2 小时前
和鲸科技受邀赴中国气象局气象干部培训学院湖南分院开展 DeepSeek 趋势下的人工智能技术应用专题培训
人工智能·科技
mzgong6 小时前
图像分割的mask有空洞怎么修补
人工智能·opencv·计算机视觉
jiemidashi8 小时前
前沿技术一览科技改变生活新趋势
经验分享·科技·生活
深圳市青牛科技实业有限公司9 小时前
GC6139——精准驱动,静享科技之美[特殊字符]
科技·单片机·嵌入式硬件·摄像头·医疗器械·机顶盒
m0_665815109 小时前
联核科技AGV无人叉车有哪些常见的安全防护措施?
人工智能·科技·安全·机器人·自动化·自动驾驶
jndingxin11 小时前
OpenCV计算摄影学(22)将输入的彩色图像转换为两种风格的铅笔素描效果函数pencilSketch()
人工智能·opencv·计算机视觉
巷95511 小时前
使用OpenCV进行图像处理:边界填充、阈值处理
图像处理·人工智能·opencv
楼台的春风12 小时前
【形态学梯度的详解】
图像处理·人工智能·深度学习·opencv·计算机视觉·matlab·嵌入式