目录
-
- [0. CNN的网络应用](#0. CNN的网络应用)
- [1 网络结构](#1 网络结构)
- [2 探索经验与影响](#2 探索经验与影响)
-
- [2.1 核心洞察------语义信息是"可传递"的](#2.1 核心洞察——语义信息是“可传递”的)
- [2.2 深远影响](#2.2 深远影响)
-
- [2.2.1 确立了"Neck"模块的行业标准](#2.2.1 确立了“Neck”模块的行业标准)
- [2.2.2 解决了"小目标检测"的世纪难题](#2.2.2 解决了“小目标检测”的世纪难题)
- [2.3 小结](#2.3 小结)
找到这篇文章讲的太好了,学习之。
【FPN(Feature Pyramid Networks)网络--特征图金字塔网络,适合小目标检测网络。 - CSDN App】https://blog.csdn.net/weixin_43331421/article/details/140209622?sharetype=blog\&shareId=140209622\&sharerefer=APP\&sharesource=yhb1206\&sharefrom=link
0. CNN的网络应用
我感觉,FPN是对ResNet在目标检测领域的应用。
它的出现是为了解决目标检测中小目标漏检的问题,人类哇,不断探索,于是SSD,FPN等等不断探索出来了。
各种网络结构,其实都是实验探索出来的,那么神经网络呀,还真是实验科学。
1 网络结构
【FPN(Feature Pyramid Networks)网络--特征图金字塔网络,适合小目标检测网络。 - CSDN App】https://blog.csdn.net/weixin_43331421/article/details/140209622?sharetype=blog\&shareId=140209622\&sharerefer=APP\&sharesource=yhb1206\&sharefrom=link
该文章中截图如下:

可以看得出它是对CNN网络的应用或者进一步工程化发展------C2-C5每个阶段的最后的特征图都增加一个输出,像不像卡你脖子?所以这样的结构又叫neck。其实开玩笑,这样理解也可以,不过在计算机视觉的模型架构里,大家习惯用人体结构来比喻网络的不同部分:
Backbone(主干/脊梁):负责提取特征,就像人的脊柱,支撑着整个身体。
Head(头):负责做具体的任务(比如分类、检测),就像人的大脑,负责决策。
Neck(脖子):负责连接 Backbone 和 Head,并对特征进行加工融合。
FPN 就是典型的 Neck。
FPN 本身就是一个特征融合模块,它把主干网络不同深度的特征图(C2-C5)融合起来,生成新的特征金字塔(P2-P5),然后再送给检测头(Head)去做预测。所以,FPN 在模型里扮演的就是"脖子"的角色。
2 探索经验与影响
FPN 的探索经验与影响,可以总结为 "一个核心洞察" 和 "两大深远影响"。
2.1 核心洞察------语义信息是"可传递"的
FPN 最大的探索经验是证明了语义信息(Semantic) 和位置信息(Location) 可以解耦处理。
传统认知:认为高分辨率特征图(浅层)语义弱,无法直接用于检测。
FPN 洞察:语义信息是"可传递"的。通过自顶向下的路径,可以将深层的高语义信息"注入"到浅层的高分辨率特征中,从而创造出既强又准的特征图。
2.2 深远影响
2.2.1 确立了"Neck"模块的行业标准
FPN 是第一个真正意义上被广泛接受的 "Neck" 结构。
它证明了在 Backbone(主干)和 Head(检测头)之间增加一个特征融合模块,能带来巨大的性能提升。
后续演进:PANet(双向融合)、BiFPN(加权融合)、ASFF(自适应融合)等,都是在 FPN 的"自顶向下"基础上做的改进。
2.2.2 解决了"小目标检测"的世纪难题
在 FPN 之前,小目标检测的精度一直很低,因为小目标在深层特征中几乎"消失"了。FPN 通过利用浅层的高分辨率特征,极大地提升了小目标的召回率,成为小目标检测的标配技术。
2.3 小结
FPN 不仅是一个算法,更是一种设计范式。
它告诉后来的研究者:"特征金字塔" 是解决多尺度问题的金钥匙,而"语义传递" 是构建高质量特征金字塔的核心手段。