[论文笔记]MRRNET

这是一篇河大的论文 感觉跟SANET很像

摘要

摘要:随着物联网(IoT)的大规模部署,道路场景中实时感知和环境理解的需求变得越来越迫切。 同时,语义分割作为像素级场景解析得到了广泛的研究。 然而,资源有限的物联网设备在语义分割时应考虑实时性和准确性性能。 在本文中,我们介绍了一种快速高效的语义分割网络,用于交通场景中的道路感知,部署在云服务器上。

为此,我们提出了一种有效且高效的语义分割网络,称为多分辨率细化网络(MRRNet)。 它采用编码器-解码器架构,可以有效地通信分支特征。

在编码器阶段,集成了语义重建模块(SRM)来捕获尺度特征信息并细化语义特征的性能。 为了解决信息丢失问题并增强特征的表示,提出了多尺度特征抛光模块(MSFPM)。 此外,还设计了对称聚合交互模块(SAIM)来利用低级和高级功能之间固有的互补性。

引言

在本文中,我们介绍了一种称为 MRRNet 的多分辨率细化网络。

首先,该网络采用了轻量级编码器结构,旨在有效地提取复杂的特征。 其次,为了利用网络内丰富的空间细节,我们重新优化了分支结构,如图2所示。具体来说,MRRNet在编码器末端添加了语义重建模块(SRM)以重用高级特征。

在编码器的前端,引入了由多尺度特征抛光模块(MSFPM)细化的低级特征分支作为特征补充。 对称聚合交互模块(SAIM)由对称结构组成,旨在结合MRRNet每个分支中的空间和上下文增强块。 根据 Cityscapes [18]、CamVid [19] 和 NightCity [20] 三个流行基准的大量实验结果,MRRNet 在分割精度和推理速度之间实现了令人满意的平衡。 在各种基准数据集上进行实验,MRRNet在Cityscapes数据集上的mIoU为78.7%,FPS为112.6,在CamVid数据集上的mIoU为78.9%,FPS为175.7,NightCity 数据集上的mIoU为54.2%,FPS为178.9。 我们还提供了消融研究和特征可视化,以便更好地理解 MRRNet 中每个模块的功能。

本文创新点:

1> 我们精心设计了SRM来改善语义特征并提取不同分辨率的图像特征。

2> 提出了一种新的 MSFPM 来建立与低级特征的连接,从而能够全面捕获跨不同尺度的特征信息。

3> 我们提出了 SAIM,它有助于融合复杂的语义信息,提高语义分割的准确性和鲁棒性。

相关工作

分为三个方面写的 基本都是对前人工作的总结 感兴趣可以自己看看

A. Semantic Segmentation

B. Real-Time Semantic Segmentation

C. Context Information Reconstruction

模型方法

实时高精度网络的设计需要仔细考虑轻量级的结构设计和高效的特征表达。 当信息从浅分辨率提取到深分辨率时,会出现逐渐的过渡,其中空间细节减少,而语义信息增强。 因此,为了实现最佳性能,语义分割网络总是巧妙地利用高分辨率中固有的详细信息,同时利用较低分辨率下可用的上下文信息。

A. Overall Architecture

所提出的MRRNet的整体架构如图3所示,它采用编码器-解码器架构,集成了轻量级而高效的编码器,并采用具有鲁棒特征增强能力的分支结构。 受 ResNet [39] 主干网络的启发,我们的方法确保稳定的信息传输,并通过合并级联残差块来解决梯度消失问题。 我们使用预训练的 ImageNet 模型初始化主干权重,强调训练模型的效率。 在训练过程中,Ground Truth图像被用作目标图像并参与训练过程。 然后,这些图像将被 Canny 边缘检测并用作辅助图像来构建辅助损失,其目的是增强网络的目标边缘分割能力。 基本主干由具有六种不同分辨率的级联残差块组成,与 SRM 一起形成高效编码器,以实现最佳特征提取。

此外,为了建立多分支特征层次结构,我们采用跨级链接方法,创建具有多尺度形状的层次结构。 在编码方面,我们专注于增强特征捕获能力,实现丰富细节信息的大感受野表达。 精心设计的MSFPM 利用低维特征的精确感知,通过主干第三层块的连接改善特征表示并最大限度地减少中继信息丢失。 我们对跨尺度信息融合的重视是通过所提出的SAIM的对称结构来实现的,促进高层和低层特征之间的通信。 这种方法增强了低级特征的语义信息,同时为高级特征提供了更详细的信息。

B. Semantic Reconstruction Module

一个轻量级且高效的主干网络,以级联残差块为中心,旨在捕获基本特征以及全局语义特征。 然而,通过网络特征流传输输入信息过程中的下采样操作会导致纹理信息的丢失。 缺失的内容导致高级语义特征包含较少的场景级上下文信息,进而导致分割结果与理想情况之间存在较大差距。 为了解决这个问题,本文引入了 SRM,如图 4 所示,它重建了对于保持语义特征图完整性至关重要的上下文信息。 SRM强调了PPM的优点,采用多级池化层进行语义特征提取。 此外,它采用了在通道维度上构建复合特征图的方法。 值得注意的是,我们不仅结合了多尺度池化操作,还考虑了池后特征交互。 其中,提出了一种自适应引导机制,通过特征折叠形成特征权重,动态影响每个特征的权重。 SRM 包含三个关键组成部分:1)多尺度局部感知; 2)自适应权重引导; 3)跨尺度特征调制模块。

多尺度局部感知:该块采用具有不同感受野的池化组,并向池化层添加 3 × 3 滤波器以进行特征平滑操作。 具体来说,我们对输入特征F6执行五组非对称分布的平均池化操作,得到感受野分布S ∈{3×3, 5× 5, 7×7, 9× 9, 13× 13},并进行特征处理 通过逐渐增加感受野。 处理的特性可表示为:

其中Fin表示通过主干网络传输到SRM的输入特征。 Avgn×n表示Fin使用n×n的池化内核的平均池化操作,Conv指的是Convolution、batch Normalization(BN)和ReLU函数的组合操作。 在所提出的表达式中,我们采用平均池化操作来优先考虑模块对平滑噪声背景信息的关注,从而形成有效的特征组合表示。

自适应权重指导:该模块利用输入特征的全局能力来理解全局信息,指导尺度特征的权重生成过程。 这种方法充分利用了输入特征中嵌入的高级上下文信息。 最初,采用全局平均池算子来导出通道级别的一组权重向量。 随后,应用多层感知(MLP)来进一步微调和引导输出长度。 最后通过sigmoid函数生成自适应权重向量,记为w=[w1,w2,...w5]

其中 G_avg(·) 表示全局平均池和全局最大池运算符。 MLP(·) 由两个全连接层和一个 ReLU 层组成。

跨尺度特征调制:在该模块中,我们采用全局自适应感知权重(在(2)中表示为w)来调制由局部多尺度感知生成的多尺度上下文特征.F1 in.∼F5 in,如(1)中所述 。 具体来说,我们利用权重 w 来调整组合的多尺度特征的权重。 随后,我们在通道维度中连接重组的多尺度特征以产生场景上下文感知特征,从而细化语义特征 Fout

C. Multiscale Feature Polishing Module

我们坚持探索低级功能,使我们的方法与其他网络保持一致。 认识到低级特征中丰富的细节和空间信息对准确分割的重大贡献,我们引入了 MSFPM 来增强低级尺度特征的表示并减少信息丢失。 如图5所示,MSFPM采用并联和级联结构的混合连接方法。 最初,输入 FA ∈ RH×W×C 中的低级特征被用作初始特征串联的基本特征,提供必要的原始信息。 此外,通过标准卷积进行主要特征细化以获得特征的重新表示。 后续步骤涉及循环过程,其中扩张卷积后的特征用于进一步级联和后续卷积操作,促进跨尺度特征学习。 这个迭代过程提取了一系列扩张的卷积缩放上下文特征,如下所示

其中 F(p,d) 3×3conv 表示填充为 p 且扩张率为 d 的 3×3 空洞卷积。 在我们的实验中,我们设置 (p, d) = (1, 0), (3, 3), (5, 5), (7, 7), (13, 13)。 然后,这些输出特征将在通道维度上串联并通过1×1卷积输出

D. Symmetric Aggregation Interaction Module

我们意识到高层和低层结构学习到的特征表示是完全不同的。 受跨尺度特征融合[29]、[32]、[40]的启发,我们设计了SAIM模块,如图6所示,

探索跨尺度的语义特征和细节特征之间的交互,强调通道交互ing且揭示了通道之间的关键线索。 其中,高层和低层特征之间的交互是通过DW卷积、标准卷积、元素级乘法实现的,从而融合彼此的特征信息。 具体来说,输入的低级特征Fl in 和高级特征Fh in 将通过DW卷积路径进行清洗,生成Fl1 in 和Fh1 in 。 另一方面,分别进行stride=4的上采样和下采样,最终输出Fl2 in和Fh2 in。 Fl2 in 与 Fh1 in 进行元素特征点乘运算,实现高层特征信息的低层表征,得到 Fhl in。同理,Fh2 in 与 Fl1 in 进行元素特征点乘运算,实现高层特征信息的高层表征 最后,将这两个融合特征与经过1×1卷积的低维特征和高维特征相加,得到F。 Fout是通过3×3卷积得到的,可以表示为

其中Fl in和Fh in是经过1×1卷积的低维特征和高维特征。

实验

消融实验

1>MRRNet 的有效性:为了验证架构中不同组件的有效性,我们选择比较在 ImageNet 上训练的主干网和 seghead 作为基线。 各个模块在 Cityscapes 验证数据集上的消融研究如表 1 所示。基线网络采用标准卷积代替相关运算,并在特征融合点利用加性连接,在 136.7 FPS 下实现了 73.7% 的准确率。 实验过程中,MRRNet在Layer3分支中加入MSFPM,实现边缘监督,在主干输出处连接SRM,并利用SAIM将SRM输出的重构语义信息与MSFPM产生的精细细节特征融合。

  1. Effectiveness of SRM

PPM 扩展了模型的感受野,实现了全局和局部信息的感知。 我们引入SRM来捕获尺度特征信息并增强语义特征。 该模块通过多级池化操作完成语义特征重建,并随后利用丰富的语义信息指导逐步上采样过程。

我们将 SRM 与其他具有类似功能的模块进行了比较,例如 PPM、DAPPM、PAPPM [33] 和 APPPM。 结果如表 II 所示,表明 SRM 的 mIoU 比 PPM 提高了 2.2%。 与广泛使用的 PPM 相比,SRM 表现出最高的 mIoU,为 78.7%。 此外,我们彻底验证了 SRM 结构,实现了池化模块组 {(1, 1), (3, 3), (5, 5), (7, 7), (9, 9), (13, 13) 在设计模块时,我们选择了高阶池化和低阶池化相结合的池化组合方法,通过mIoU的性能比较,我们最终选择了{(3, 3), (5, 5), (7, 7), (9, 9), (13, 13)}池化组合方法。 SRM结构中不同大小的组合卷积核的消融研究如表III所示。

  1. Effectiveness of MSFPM

如表 I 所示,关于在基线中添加 MSFPM 的消融研究证实了我们提出的结构的有效性。 为了评估 MSFPM 模块的效率,我们使用不同的通道压缩率(表示为 r)进行了消融实验,如表 IV 所示。

实验结果表明,随着通道组成参数 r 的减小(即随着卷积通道数量的增加),MSFPM 的 mIoU 逐渐增加,尽管代价是网络速度显着降低。 为了在 mIoU 和速度之间取得平衡,我们确定当 r=2 时,实现 MSFPM 的最佳结构。

此外,我们还可视化了添加了 MSFPM 结构的基线的输出特征热图。 图 7 直观地比较了基线和 MSFPM 增强基线的输出结果。 在本研究中,我们采用梯度加权类激活映射(Grad-CAM)[52]作为可视化方法。 热图可视化的计算过程涉及计算输出卷积层到c类别的logits的梯度。 随后,通过对每个通道维度中的像素值进行平均来导出神经元重要性权重αck。 这由以下公式表示:

其中,z表示特征图中的像素数量,Ak ij 表示第k个特征图的i、j位置处的像素值,yc表示c类的logits。

为了获得类别 c 的 Grad-CAM,利用神经元重要性权重 αck 对所选卷积层的特征 Ak 进行 ReLU 操作。 这个过程用下面的公式表示:

D. Compare With State-of-the-Art Methods

评价指标

相关推荐
七夜星七夜月1 天前
时间序列预测论文阅读和相关代码库
论文阅读·python·深度学习
WenBoo-2 天前
HIPT论文阅读
论文阅读
chnyi6_ya2 天前
论文笔记:Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models
论文阅读·人工智能·语言模型
Jude_lennon2 天前
【论文笔记】结合:“integrate“ 和 “combine“等
论文阅读
LuH11242 天前
【论文阅读笔记】HunyuanVideo: A Systematic Framework For Large Video Generative Models
论文阅读·笔记
lalahappy2 天前
Swin transformer 论文阅读记录 & 代码分析
论文阅读·深度学习·transformer
开心星人2 天前
【论文阅读】Trigger Hunting with a Topological Prior for Trojan Detection
论文阅读
图学习的小张2 天前
论文笔记:是什么让多模态学习变得困难?
论文阅读·神经网络·机器学习
Maker~2 天前
28、论文阅读:基于像素分布重映射和多先验Retinex变分模型的水下图像增强
论文阅读·深度学习
小嗷犬3 天前
【论文笔记】CLIP-guided Prototype Modulating for Few-shot Action Recognition
论文阅读·人工智能·深度学习·神经网络·多模态