Faster Rcnn

一、公用特征Feature Maps的获取

二、Region Proposal Network

Feature Maps[bs,1024,38,38]经过3*3卷积,然后分别经过两个1*1的卷积,通道数分别为18,36

18 = 9*2 代表每个位置9个先验框为背景和目标的概率

36 = 9*4 代表每个位置9个先验框的坐标调整参数(Faster Rcnn也是有先验框的)

先验框 + 位置调整参数 = 建议框

建议框的初筛

由于建议框非常多,要对建议框进行初筛,先根据建议框是目标的分数,选出得分最高的前K个建议框,再进行NMS,然后再选出得分最高的前K个建议框。如一张照片有300个建议框。

三、ROI Pooling

根据建议框的参数,在Feature Map上裁剪出对应特征,比如[1024,82,79],每个特征的大小是不一样的,

相关推荐
躺柒34 分钟前
读大语言模型08计算基础设施
人工智能·ai·语言模型·自然语言处理·大语言模型·大语言
神州问学36 分钟前
Skywork:昆仑万维推出天工超级智能体
人工智能
神州问学39 分钟前
Graph-RAG全面综述:如何用知识图谱+大模型解决信息检索难题?
人工智能
金井PRATHAMA1 小时前
破译心智密码:神经科学如何为下一代自然语言处理绘制语义理解的蓝图
人工智能·自然语言处理
hllqkbb1 小时前
实战Kaggle比赛:狗的品种识别(ImageNet Dogs)
人工智能
打不过快跑1 小时前
YOLO 入门实战(二):用自定义数据训练你的第一个检测模型
人工智能·后端·python
lingling0091 小时前
艾利特石油管道巡检机器人:工业安全的智能守护者
大数据·网络·人工智能
居然JuRan1 小时前
全网最全的大模型分词器(Tokenizer)总结
人工智能
聚客AI1 小时前
💡突破RAG性能瓶颈:揭秘查询转换与智能路由黑科技
人工智能·langchain·llm
腾讯云开发者1 小时前
架构师夜谈:从历史的视角,看见技术人的财富机遇
人工智能