【超音速专利 CN117611531A】一种工业尺寸测量方法

申请号 CN202311530227.2
公开号(公开) CN117611531A
申请日 申请日 2023.11.16
申请人(公开) 超音速人工智能科技股份有限公司(833753)
发明人(公开) 张俊峰(总); 杨培文(总); 沈俊羽; 张小村

原文摘要

本发明涉及一种工业尺寸测量方法,包括以下步骤:采集待检测物品的图像;提取图像中的多尺度特征,以及与多尺度特征对应的预测候选框;裁剪预测候选框内对应的特征,根据裁剪的特征,通过全连接网络得到每个预测候选框的类型和位置信息;将所有裁剪出的特征输入关键点检测分支,得到每个特征中所有类型点的横坐标值信息、纵坐标值信息和可见性信息;将预测候选框的类型与类型点进行匹配,通过网络预测可见性筛选出不存在的点,得到最终预测点的类型和坐标。本发明能在检测目标的同时,检测目标框中的点,仅需预测一次,算法速度快,能在高速生产下,实时检测工业零件的尺寸。

AI摘要

基于提供的专利文档,本发明涉及一种工业尺寸测量方法,旨在解决高速生产环境下工业零件尺寸实时检测的难题。以下是该方法的提炼摘要:

核心发明点:

提出一种基于改进Faster RCNN的端到端AI检测模型(Pose RCNN),通过在目标检测网络中集成关键点检测分支,实现单次预测即可同时定位零件边缘(预测框)和精确检测框内线段端点(关键点),从而高效计算零件尺寸。

主要技术方案:

图像处理流程:

采集待检测物品图像。

通过特征提取网络(如FPN)和RPN网络提取多尺度特征及预测候选框。

裁剪候选框内特征,经全连接网络预测框的类型和位置。

关键点检测分支:

将所有裁剪特征输入独立的关键点检测分支。

分支包含三个分类头:

横/纵坐标分类头:通过特定卷积(Conv2D_x/Conv2D_y)和反卷积操作,预测所有类型点的坐标(输出维度为c2×112)。

可见性分类头

通过卷积和全连接层预测点的可见性。

坐标信息经Soft-argmax函数解码为实际坐标。

类型匹配与筛选:

预设框类型与点类型的匹配关系(如表格定义)。

根据预测框类型自动筛选可见点,剔除不匹配点,输出最终点的类型和坐标。

技术优势:

高效实时:仅需单次模型预测即可处理多边缘检测,避免传统方法中多次运行模型的问题,显著提升检测速度。

简化流程:整合目标检测与关键点检测于单一模型,减少对多个数据集和模型的需求,降低操作复杂度。

精准匹配:通过框-点类型匹配机制,确保特定类型框仅检测对应类型点,提升测量准确性。

应用场景:

适用于工业制造中需快速精确测量零件尺寸的场合,如高速生产线上的质量控制。

步骤

一种工业尺寸测量方法,包括以下步骤:

一,采集待检测物品的图像;

二,提取图像中的多尺度特征,以及与多尺度特征对应的预测候选框;

三,裁剪预测候选框内对应的特征,根据裁剪的特征,通过全连接网络得到每个预测候选框的类型和位置信息;

四,将所有裁剪出的特征输入关键点检测分支,得到每个特征中所有类型点的横坐标值信息、纵坐标值信息和可见性信息;

五,将预测候选框的类型与类型点进行匹配,通过网络预测可见性筛选出不存在的点,得到最终预测点的类型和坐标。

六,提取图像中的多尺度特征的方法包括:将图片输入特征提取网络和特征金字塔网络,得到多尺度特征;提取与多尺度特征对应的预测候选框的方法包括:将多尺度特征经过RPN网络后,得到预测候选框。

七,裁剪预测候框内对应的特征后,通过ROI Aline1将裁剪的特征统一缩放到7×7的大小,缩放后的特征经过展平后,通过全连接网络得到预测候选框的类型和位置信息。

八,在将所有裁剪出的特征输入关键点检测分支前,还包括对关键点检测分支的训练,采集多张图片样本,通过真实框标选出图像样本中的特征,得到特征训练集,将特征训练集输入关键点检测分支中,训练完成后,得到训练好的关键点检测分支。

所述关键点检测分支包括以下步骤:

a,将所有裁剪出的特征通过28×28的ROI Aline2统一缩放到28×28的大小,得所有大小为(n, 64, 28, 28)的特征a,其中,n为所有预测候选框中的特征的数量;

b,将特征a中的所有特征输入纵坐标分类头,得到大小为(c2, 112)的所有类型点的纵坐标值信息;

c,将特征a中的所有特征输入横坐标分类头,得到大小为(c2, 112)的所有类型点的横坐标值信息;

d,将特征a中的所有特征输入可见性分类头,得到大小为(c2)的所有类型点的可见性信息。

e,进一步的,特征a中的特征输入纵坐标分类头后包括以下步骤:

将特征a中的特征经过Conv2D_y卷积和ReLU激活函数后,得到图像特征y1;

将特征y1经过Conv2D_y卷积和ReLU激活函数后,得到图像特征y2;

将特征y2展平后,得到特征y3;

将特征y3经过一维反卷积和ReLU激活函数后,得到特征y4;

将特征y4经过一维反卷积和ReLU激活函数后,得到类型点的纵坐标值信息。

f,进一步的,特征a中的特征输入横坐标分类头后包括以下步骤:

将特征a中的特征经过Conv2D_x卷积和ReLU激活函数后,得到图像特征x1;

将特征x1经过Conv2D_x卷积和ReLU激活函数后,得到图像特征x2;

将特征x2展平后,得到特征x3;

将特征x3经过一维反卷积和ReLU激活函数后,得到特征x4;

将特征x4经过一维反卷积和ReLU激活函数后,得到类型点的横坐标值信息。

g,特征a中的特征输入可见性分类头后包括以下步骤:

将特征a中的特征经过两次Conv2D卷积和ReLU激活函数后,再经过全局池化、展平和全连接后,得到类型点的可见性信息。

h,所有类型点的横坐标信息和纵坐标信息经过Soft-argmax函数后,得到所有类型点的坐标。

i,预测候选框的类型与类型点进行匹配的方法包括以下步骤:

设置框的类型与点的类型的匹配关系;

将与框类型匹配的类型点的可见性设置为可见,不匹配的点设置为不可见。

扩展阅读

我想对大家说的话
工作中遇到的问题,可以按类别查阅鄙人的算法文章,请点击《算法与数据汇总》。
学习算法:按章节学习《喜缺全书算法册》,大量的题目和测试用例,打包下载。重视操作
有效学习:明确的目标 及时的反馈 拉伸区(难度合适) 专注
员工说:技术至上,老板不信;投资人的代表说:技术至上,老板会信。
闻缺陷则喜(喜缺)是一个美好的愿望,早发现问题,早修改问题,给老板节约钱。
子墨子言之:事无终始,无务多业。也就是我们常说的专业的人做专业的事。
如果程序是一条龙,那算法就是他的是睛
失败+反思=成功 成功+反思=成功

视频课程

先学简单的课程,请移步CSDN学院,听白银讲师(也就是鄙人)的讲解。
https://edu.csdn.net/course/detail/38771

如何你想快速形成战斗了,为老板分忧,请学习C#入职培训、C++入职培训等课程
https://edu.csdn.net/lecturer/6176

测试环境

操作系统:win7 开发环境: VS2019 C++17

或者 操作系统:win10 开发环境: VS2022 C++17

如无特殊说明,本算法 用**C++**实现。

相关推荐
NAGNIP3 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab4 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab4 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
哥不是小萝莉5 小时前
OpenClaw 架构设计全解析
ai
AngelPP8 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年8 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼8 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS8 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
warm3snow8 小时前
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的
ai·大模型·llm·agent·skill·mcp
天翼云开发者社区9 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤