【超音速专利 CN117611531A】一种工业尺寸测量方法


申请号	CN202311530227.2
公开号（公开）	CN117611531A
申请日	申请日 2023.11.16
申请人（公开）	超音速人工智能科技股份有限公司(833753)
发明人（公开）	张俊峰（总); 杨培文(总); 沈俊羽; 张小村

原文摘要

本发明涉及一种工业尺寸测量方法，包括以下步骤：采集待检测物品的图像；提取图像中的多尺度特征，以及与多尺度特征对应的预测候选框；裁剪预测候选框内对应的特征，根据裁剪的特征，通过全连接网络得到每个预测候选框的类型和位置信息；将所有裁剪出的特征输入关键点检测分支，得到每个特征中所有类型点的横坐标值信息、纵坐标值信息和可见性信息；将预测候选框的类型与类型点进行匹配，通过网络预测可见性筛选出不存在的点，得到最终预测点的类型和坐标。本发明能在检测目标的同时，检测目标框中的点，仅需预测一次，算法速度快，能在高速生产下，实时检测工业零件的尺寸。

AI摘要

基于提供的专利文档，本发明涉及一种工业尺寸测量方法，旨在解决高速生产环境下工业零件尺寸实时检测的难题。以下是该方法的提炼摘要：

核心发明点：

提出一种基于改进Faster RCNN的端到端AI检测模型（Pose RCNN），通过在目标检测网络中集成关键点检测分支，实现单次预测即可同时定位零件边缘（预测框）和精确检测框内线段端点（关键点），从而高效计算零件尺寸。

主要技术方案：

图像处理流程：

采集待检测物品图像。

通过特征提取网络（如FPN）和RPN网络提取多尺度特征及预测候选框。

裁剪候选框内特征，经全连接网络预测框的类型和位置。

关键点检测分支：

将所有裁剪特征输入独立的关键点检测分支。

分支包含三个分类头：

横/纵坐标分类头：通过特定卷积（Conv2D_x/Conv2D_y）和反卷积操作，预测所有类型点的坐标（输出维度为c2×112）。

可见性分类头

通过卷积和全连接层预测点的可见性。

坐标信息经Soft-argmax函数解码为实际坐标。

类型匹配与筛选：

预设框类型与点类型的匹配关系（如表格定义）。

根据预测框类型自动筛选可见点，剔除不匹配点，输出最终点的类型和坐标。

技术优势：

高效实时：仅需单次模型预测即可处理多边缘检测，避免传统方法中多次运行模型的问题，显著提升检测速度。

简化流程：整合目标检测与关键点检测于单一模型，减少对多个数据集和模型的需求，降低操作复杂度。

精准匹配：通过框-点类型匹配机制，确保特定类型框仅检测对应类型点，提升测量准确性。

应用场景：

适用于工业制造中需快速精确测量零件尺寸的场合，如高速生产线上的质量控制。

步骤

一种工业尺寸测量方法，包括以下步骤：

一，采集待检测物品的图像；

二，提取图像中的多尺度特征，以及与多尺度特征对应的预测候选框；

三，裁剪预测候选框内对应的特征，根据裁剪的特征，通过全连接网络得到每个预测候选框的类型和位置信息；

四，将所有裁剪出的特征输入关键点检测分支，得到每个特征中所有类型点的横坐标值信息、纵坐标值信息和可见性信息；

五，将预测候选框的类型与类型点进行匹配，通过网络预测可见性筛选出不存在的点，得到最终预测点的类型和坐标。

六，提取图像中的多尺度特征的方法包括：将图片输入特征提取网络和特征金字塔网络，得到多尺度特征；提取与多尺度特征对应的预测候选框的方法包括：将多尺度特征经过RPN网络后，得到预测候选框。

七，裁剪预测候框内对应的特征后，通过ROI Aline1将裁剪的特征统一缩放到7×7的大小，缩放后的特征经过展平后，通过全连接网络得到预测候选框的类型和位置信息。

八，在将所有裁剪出的特征输入关键点检测分支前，还包括对关键点检测分支的训练，采集多张图片样本，通过真实框标选出图像样本中的特征，得到特征训练集，将特征训练集输入关键点检测分支中，训练完成后，得到训练好的关键点检测分支。

所述关键点检测分支包括以下步骤：

a,将所有裁剪出的特征通过28×28的ROI Aline2统一缩放到28×28的大小，得所有大小为(n, 64, 28, 28)的特征a，其中，n为所有预测候选框中的特征的数量；

b,将特征a中的所有特征输入纵坐标分类头，得到大小为(c2, 112)的所有类型点的纵坐标值信息；

c,将特征a中的所有特征输入横坐标分类头，得到大小为(c2, 112)的所有类型点的横坐标值信息；

d,将特征a中的所有特征输入可见性分类头，得到大小为(c2)的所有类型点的可见性信息。

e,进一步的，特征a中的特征输入纵坐标分类头后包括以下步骤：

将特征a中的特征经过Conv2D_y卷积和ReLU激活函数后，得到图像特征y1；

将特征y1经过Conv2D_y卷积和ReLU激活函数后，得到图像特征y2；

将特征y2展平后，得到特征y3；

将特征y3经过一维反卷积和ReLU激活函数后，得到特征y4；

将特征y4经过一维反卷积和ReLU激活函数后，得到类型点的纵坐标值信息。

f,进一步的，特征a中的特征输入横坐标分类头后包括以下步骤：

将特征a中的特征经过Conv2D_x卷积和ReLU激活函数后，得到图像特征x1；

将特征x1经过Conv2D_x卷积和ReLU激活函数后，得到图像特征x2；

将特征x2展平后，得到特征x3；

将特征x3经过一维反卷积和ReLU激活函数后，得到特征x4；

将特征x4经过一维反卷积和ReLU激活函数后，得到类型点的横坐标值信息。

g，特征a中的特征输入可见性分类头后包括以下步骤：

将特征a中的特征经过两次Conv2D卷积和ReLU激活函数后，再经过全局池化、展平和全连接后，得到类型点的可见性信息。

h，所有类型点的横坐标信息和纵坐标信息经过Soft-argmax函数后，得到所有类型点的坐标。

i，预测候选框的类型与类型点进行匹配的方法包括以下步骤：

设置框的类型与点的类型的匹配关系；

将与框类型匹配的类型点的可见性设置为可见，不匹配的点设置为不可见。

扩展阅读

我想对大家说的话
工作中遇到的问题，可以按类别查阅鄙人的算法文章，请点击《算法与数据汇总》。
学习算法：按章节学习《喜缺全书算法册》，大量的题目和测试用例，打包下载。重视操作
有效学习：明确的目标及时的反馈拉伸区（难度合适）专注
员工说：技术至上，老板不信；投资人的代表说：技术至上，老板会信。
闻缺陷则喜(喜缺)是一个美好的愿望，早发现问题，早修改问题，给老板节约钱。
子墨子言之：事无终始，无务多业。也就是我们常说的专业的人做专业的事。
如果程序是一条龙，那算法就是他的是睛
失败+反思=成功成功+反思=成功

视频课程

先学简单的课程，请移步CSDN学院，听白银讲师（也就是鄙人）的讲解。
https://edu.csdn.net/course/detail/38771

如何你想快速形成战斗了，为老板分忧，请学习C#入职培训、C++入职培训等课程
https://edu.csdn.net/lecturer/6176

测试环境

操作系统：win7 开发环境： VS2019 C++17

或者操作系统：win10 开发环境： VS2022 C++17

如无特殊说明，本算法用**C++**实现。