1.9.3 卷积神经网络中的瓶颈结构和沙漏结构提出的初衷是什么?可以应用于哪些问题?

chat 瓶颈结构 沙漏结构
初衷 瓶颈结构最初被引入用于深度卷积神经网络中,旨在通过减少中间特征图的通道数来降低计算复杂度 ,并在保持网络容量的同时减少参数量 。 这种设计能够在保持 网络性能 的前提下,提高计算效率和降低内存消耗 沙漏结构最初提出是为了处理具有多尺度信息的输入和输出 ,特别是在姿态估计、人体关键点检测等任务中。 该结构通过在网络内部增加上采样和下采样操作 ,允许网络在不同层次捕捉和融合多尺度的特征,从而提高网络对细节和整体信息的感知能力
作用 瓶颈结构广泛应用于各种计算机视觉任务,如图像分类、物体检测和语义分割等。 它通常作为ResNet等深度网络结构中的关键组件,通过降低通道数来有效控制网络的复杂度,提高训练和推理效率。 沙漏结构主要应用于需要处理多尺度信息的任务,例如姿态估计、人体姿态关键点检测、医学影像分析等。 通过沙漏结构,网络可以有效地整合 从粗糙到细节的多层次信息,提升对复杂模式和细微特征的识别和推理能力。

瓶颈结构

  • 来源:瓶颈结构是在GoogLeNet/Inception-v1中提出的,而后的ResNet、MobileNet等很多网络也采用并发展了这个结构。

  • 初衷 :瓶颈结构的初衷 是为了降低大卷积层的计算量

    • 即在计算比较大的卷积层之前,先用一个1x1卷积来压缩 大卷积层输入特征图的通道数目 ,以减小计算量

    • 在大卷积层完成计算之后,根据实际需要,有时候会再次使用一个卷积来将大卷积层输出特征图的通道数目复原。

  • 组成 :由此,瓶颈结构一般是一个小通道数的1x1卷积层 ,接一个较大卷积层 ,后面可能还会再跟一个大通道数的1x1卷积层 (可选),如图1.18所示。

  • 作用 :瓶颈结构是卷积神经网络中比较基础的模块,它可以用更小的计算代价达到与之前相似甚至更好的效果(因为瓶颈结构会增加网络层数,所以特征提取能力可能也会有相应提升)。

  • 应用领域:瓶颈结构基本上可以用于所有的卷积神经网络中,场景包括物体检测和分割、生成式对抗网络等大方向,以及诸如人脸匹配、再识别、关键点检测等细分领域。

    相关阅读:

    1×1卷积

    Same卷积

    1×1卷积和Same卷积有什么区别

沙漏结构

沙漏结构也是卷积神经网络中比较基础的模块,它类似于瓶颈结构,但尺度要更大,涉及的层也更多

沙漏结构一般包括以下两个分支。

(1)自底向上(bottom-up)分支:利用卷积、池化等操作将特征图的尺寸逐层压缩(通道数可能增加),类似于自编码器中的编码器(encoder)。

(2)自顶向下(top-down)分支:利用反卷积或插值等上采样 操作将特征图的尺寸逐层扩大(通道数可能降低),类似于自编码器中的解码器(decoder)。

参考文献[24]用一个具有沙漏结构 的网络来解决人体姿态估计任务,其基本单元如图1.19所示;整个网络则由多个沙漏结构堆叠而成,如图1.20所示。

此外,在物体检测任务中,沙漏结构也有着大量应用,如TDM(Top-Down Modulation)[25]、FPN(Feature Pyramid Network)26、RON(Reverse connection with Objectness prior Networks)27、DSSD(Deconvolutional Single-Shot Detector)28、DefineDet29等模型,它们的网络结构如图1.21所示。

图中的RFB(Reverse Fusion Block)是将上采样后 的深层特征和浅层特征进行融合的模块。

  • 作用
    • 在这些应用中,沙漏结构的作用一般是将多尺度信息进行融合
    • 同时,沙漏结构单元中堆叠的多个卷积层可以提升感受野增强模型对小尺寸但又依赖上下文的物体(如人体关节点)的感知能力。

24 NEWELL A, YANG K,DENG J. Stacked hourglass networks for human pose estimationC//European Conference on Computer Vision. Springer, 2016: 483-499.

25 SHRIVASTAVA A, SUKTHANKAR R, MALIK J, et al. Beyond skip connections: Top-down modulation for object detectionJ.arXiv preprint arXiv: 1612.06851,2016.

26 LIN T-Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detectionC//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017: 2117-2125.

27 KONG T,SUN F, YAO A,et al. RON: Reverse connection with objectness prior networks for object detectionC//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:5936-5944.

28 FU C-Y, LIU W, RANGA A,et al. DSSD: Deconvolutional single shot detectorJ. arXiv preprint arXiv:1701.06659,2017.

29 ZHANG S,WEN L,BIAN X,et a1. Single-shot refinement neural network for object detectionC//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018: 4203-4212.
参考文献:

《百面深度学习》 诸葛越 江云胜主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-53097-4

2020年7月第1版(2020年7月北京第二次印刷)
推荐阅读:

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络(1989年提出,1998年改进)

AlexNet网络(2012年提出)

VGGNet网络(2014年提出)

LeNet、AlexNet、VGGNet总结

GoogLeNet网络(2014年提出)

ResNet网络(2015年提出)

相关推荐
小小测试开发15 小时前
安装 Python 3.10+
开发语言·人工智能·python
KaMeidebaby16 小时前
卡梅德生物技术快报|PD1 单克隆抗体定制配套 N 糖全谱质控开发
前端·人工智能·算法·数据挖掘·数据分析
我叫唧唧波16 小时前
Python+AI 全栈学习笔记
人工智能·python·学习
哈哈,柳暗花明17 小时前
人工智能专业术语详解(E)
人工智能·专业术语
AI极客菌17 小时前
AI绘画工具中,为什么专业玩家爱用Stable Diffusion,普通玩家却喜欢Midjourney?
大数据·人工智能·ai·ai作画·stable diffusion·aigc·midjourney
人工智能AI技术17 小时前
FLUX.2[klein]开源!小香蕉平替,本地部署AI绘画的极简方案
人工智能·ai作画·aigc
腾视科技AI17 小时前
腾视科技大模型一体机解决方案:低成本私有化落地,重塑行业智能应用新格局
大数据·人工智能·科技·ai·边缘计算·算力·ai算力
pusheng202517 小时前
IFSJ全英文专访:中国创新力量重塑先进气体感知技术,赋能全球关键基础设施安全
前端·网络·人工智能·物联网·安全
魔点科技17 小时前
魔点门禁门常开计划解决早高峰排队、忘落锁、多门手动调模式痛点
人工智能·智能硬件·智能门禁·考勤门禁·魔点科技
程序员大辉17 小时前
ComfyUI整合包V8中文版 | 2026年3月最新版,开箱即用,零门槛跑AI绘画和AI视频,新手进阶都能上手,附整合包
人工智能·ai作画