文章目录
- 前言
- [dnn 模块](#dnn 模块)
- 一、经典YOLOv5
-
- [1. 训练模型并转化为ONNX](#1. 训练模型并转化为ONNX)
- [2. 图片预处理](#2. 图片预处理)
- [3. 推理过程](#3. 推理过程)
- [4. 结果分析](#4. 结果分析)
- [5. 后处理](#5. 后处理)
-
- [5.1 去冗余](#5.1 去冗余)
- [5.2 可视化](#5.2 可视化)
- [6. 连续推理](#6. 连续推理)
- 二、新版YOLO11
-
- [1. 训练模型并转化为ONNX](#1. 训练模型并转化为ONNX)
- [2. 对比YOLO11与YOLOv5](#2. 对比YOLO11与YOLOv5)
- [3. 修改"后处理",以适配YOLO11](#3. 修改“后处理”,以适配YOLO11)
- [4. 完整YOLO11推理过程](#4. 完整YOLO11推理过程)
- 总结
前言
- 需要下载安装OpenCV工具包的朋友,请前往 此处 ;
- 系统要求:Windows系统,LabVIEW>=2018,兼容32位和64位。
dnn 模块
查找函数选板>>Addons>>Molitec>>OpenCV>>dnn ,如下图。
本文主要用到 Net 类,以及 blobFromImage 和 NMSBoxes 函数。

一、经典YOLOv5
1. 训练模型并转化为ONNX
- 训练
YOLOv5 项目文件下载地址:https://github.com/ultralytics/yolov5
通过 Python + PyTorch 训练YOLOv5模型。Python不是我的行当,这部分大家自己去"折腾"吧。本例将直接使用官方提供的预训练模型:yolov5s.pt 。(后缀 s 代表 small,即小型)它使用 coco 训练集,可以识别80类物体。
- 转化
OpenCV的Net类支持载入多种模型,但不支持 .pt 类型。所以得到模型后,首先要将其转化成ONNX格式。
在YOLOv5工程根目录下有一个export.py,可以用来做模型转化。
把 yolov5s.pt 拷贝到工程根目录下,并在此目录下打开命令终端,然后执行:
bash
python export.py --weights yolov5s.pt --include onnx --imgsz 640 --device cpu
(环境参考:Python3.7 + torch1.13.1 + onnx1.14.1, torch版本不能太高,否则会出问题)
执行完成后,会在同路径下生成 yolov5s.onnx 模型文件。
2. 图片预处理
YOLOv5 网络模型的输入层,是一个(1 * 3 * 640 * 640)的四维 Blob(用Mat类实现),用来代表一张经过预处理的彩色图片。1 代表batch数量,3代表通道数,后面两位是图片的尺寸。
使用 dnn 模块的 blobFromImage 函数实现图片预处理,如下图。
图片需要归一化,所以 scalefactor 设为 1/255。输出尺寸设为640 * 640,其余参数按默认值。

3. 推理过程
使用 dnn 模块的Net类,实现YOLOv5模型推理。依次用到的Net内置函数:new、setInput、forward、delete。
- 第1步:载入模型。插入一个new.vi,切换模式为"readNetFromONNX",然后输入 yolov5s.onnx 文件路径;
- 第2步:设置输入。插入一个setInput.vi,输入经过预处理的 Blob 矩阵;
- 第3步:向前传播。插入一个forward.vi,切换模式为"blob_name",执行后得到网络输出Blob;
- 第4步:销毁任务。插入一个delete.vi,销毁Net对象,释放内存。
一次简单的推理过程如下图。(暂不支持GPU加速,请等待后续更新)

4. 结果分析
YOLOv5 网络模型的输出层,是一个(1 * 25200 * 85)的三维 Blob,用来表示一张图片的全部推理结果。
使用 to_LV 将该Blob读取到LabVIEW中,并降维成 25200 * 85 的二维数组。
该数组一共25200行,代表25200个识别结果。
每行有85个元素,依次代表:cx,cy,w,h,conf,p0 ~ p79。
其中cx、cy是矩形框中心坐标,w、h是矩形框的宽和高,conf是框置信度,p0 ~ p79 依次是80个分类的概率。

5. 后处理
5.1 去冗余
上文所述,YOLOv5 对一张图片的推理结果,达25200个之多,这其中存在大量的冗余。
去除冗余的方法叫做 "非极大抑制" (NMS),也就是从重叠的矩形框中,筛选出最大且置信度最高的一个。
使用 dnn 模块的 NMSBoxes 函数实现该功能,如下图。
注意,输入bboxes中每个矩形的x,y是左上点,而模型输出的cx,cy是中心点,所以需要计算转换一下。scores是每个矩形的置信度,刚好对应上文中代表 conf 的那一列,直接连过去作为scores输入。

- NMSBoxes 函数的输入输出:
输入 | 类型 | 含义 |
---|---|---|
bboxes | 二维数组 | 当列数为4时,每行4个数代表一个矩形 Rect(x, y, w, h); 当列数为5时,每行5个数代表一个旋转矩形 RotatedRect( cx, cy, w, h, angle); 当列数为6时,每行6个数代表一个旋转矩形 RotatedRect( x1, y1, x2, y2, x3, y3); |
scores | 一维数组 | 对应bboxes中每个矩形框的置信度; |
params | 簇 | score_threshold 是置信度阈值; nms_threshold 是NMS阈值; eta 是调节 NMS 阈值的衰减因子(默认设为1) top_k 是最大保留数(等于0时忽略) |
输出 | 类型 | 含义 |
indices | 一维数组 | 通过 NMS 筛选后,保留下来的矩形框索引(在bboxes中的行序号) |
5.2 可视化
可视化的任务,是在原图片中画出经过筛选的识别框、分类名称和概率,以便更直观地体现 dnn 推理结果。
注意,YOLOv5 网络输出的矩形框坐标,是基于预处理尺寸 640 * 640 而言的。因此,在原图片上绘制之前,需要经过尺度转化。
然后,在对应的 p0 ~ p79 中,找出最大概率的所在位置,就是分类序号,据此从名称列表里找到具体分类名称。
实现过程如下图所示。(NMS之前,提取bboxes和scores的过程,已封装成子VI)

至此,一次完整的 "预处理 + 推理 + 后处理" 过程全部完成,整体算法流程如下图。
(可视化过程已封装成子VI。 fit_to_center.vi 让picture控件自适应缩放并居中,详见 教程(3))


6. 连续推理
利用LabVIEW的循环结构,从摄像头连续采样,并实时进行 YOLOv5 推理。
请参考工具包附带的范例:examples/Molitec/OpenCV/dnn/Net_3 (ONNX_yolov5_Camera).vi
注意,多个Mat对象只需在While循环外初始化一次,然后在循环中重复使用,从而避免占用大量内存。

二、新版YOLO11
没错,它叫YOLO11,不带 v 的。
1. 训练模型并转化为ONNX
- 训练
YOLO11 项目文件下载地址:https://github.com/ultralytics/ultralytics/tree/main
YOLO11 训练模型,可以使用集成度更高的 ultralytics 库,支持的 Python 版本为3.8 ~ 3.12。
同样,训练过程请自行完成。本例将直接使用官方提供的预训练模型:yolo11s.pt ,依然是80分类。
- 转化
同样要将 .pt 模型转化成ONNX格式。YOLO11 可以通过 Python 调用 ultralytics 库进行转化:
python
from ultralytics import YOLO
model = YOLO("yolo11s.pt")
path = model.export(format="onnx")
(环境参考:Python3.12 + ultralytics8.3.86 + torch2.6.0 + onnx1.17.0 + onnxslim0.1.48 + onnxruntime1.21.0)
path 返回 onnx 文件路径。转化过程输出如下:

2. 对比YOLO11与YOLOv5
从上述转化过程的输出信息中,可以看出YOLO11与YOLOv5的输入层是一样的形状(1 * 3 * 640 * 640),二者的区别在输出层上。
YOLO11 的输出层:(1 * 84 * 8400)
YOLOv5 的输出层:(1 * 25200 * 85)
降维成2D后,YOLO11 的输出是 84行 * 8400列,每一列作为一个结果。而 YOLOv5 是每一行作为一个结果。
YOLO11 每一列的 84 个元素,依次代表 cx、cy、w、h、p0 ~ p79。与 YOLOv5 相比,没有框置信度conf。
采用相同的 "预处理",进行一次 YOLO11 推理,观察返回结果。如下图。


3. 修改"后处理",以适配YOLO11
如上文所述,YOLO11 相比 YOLOv5,其主要区别在于输出层。因此只需修改 "后处理" 过程。
- 既然 YOLO11 是每列代表一个结果,那么直接将2D数组转置,这样就在方向上与 YOLOv5 一致;
- 既然 YOLO11 没有框置信度,就用p0~p79中的最大值作为conf,插入到对应位置,这样就在数量上与 YOLOv5 一致;
- 如此改造后,就可以直接沿用上文中 YOLOv5 的后处理子VI。
(但此时,NMSBoxes 的 score_threshold 参数含义将变为类别概率阈值)
修改后的算法如下图。(其实修改方法不唯一,大家自己或许有更好的方案)

4. 完整YOLO11推理过程
一次完整的 YOLO11 推理过程如下图。连续推理过程,请参照 YOLOv5 ,尝试自行编写。


总结
- 本系列博文作为LabVIEW工具包---OpenCV的教程,将以专栏的形式陆续发布和更新。
- 对工具包感兴趣的朋友,欢迎下载试用:秣厉科技 - LabVIEW工具包 - OpenCV
- 各位看官有什么想法、建议、吐槽、批评,或新奇的需求,也欢迎留言讨论。