顶刊新发!上海交大提出PreCM:即插即用的旋转等变卷积,显著提升分割模型鲁棒性

导读

本文针对语义分割模型因图像方向任意性导致性能下降的难题,提出了一种即插即用的基于填充的旋转等变卷积模式(PreCM) 。该模块基于严谨的群论推导,能直接替换现有网络中的卷积层,使其获得严格的旋转等变性,从而显著提升模型在旋转干扰下的鲁棒性与分割精度。>>更多资讯可加入CV技术群获取了解哦

语义分割是图像处理与计算机视觉的重要分支。随着深度学习的普及,各种卷积神经网络已被提出用于像素级分类与分割任务。然而在实际场景中,成像角度往往具有任意性,例如遥感拍摄的水体图像、医疗领域的毛细血管和息肉图像等,这些场景通常无法预先获取方向信息来指导网络提取更有效的特征。在此情况下,从具有多样方向信息的物体中学习特征面临巨大挑战,因为大多数基于CNN的语义分割网络缺乏旋转等变性以抵抗方向信息干扰。为解决这一难题,本文首先构建了一个通用卷积-群框架,旨在更充分地利用方向信息并使网络具备旋转等变性。随后通过数学推导设计了基于填充的旋转等变卷积模式(PreCM)

论文地址:

ieeexplore.ieee.org/document/10...

代码地址

github.com/XinyuXu414

该模式不仅适用于多尺度图像和卷积核,还可作为扩张卷积、转置卷积和非对称卷积等多种卷积的替代组件。为量化评估图像旋转对语义分割任务的影响,我们还提出了新的评价指标------旋转差异(RD)。在三个数据集(卫星水体图像、DRIVE和Floodnet)上对六种现有语义分割网络的替换实验表明:在随机角度旋转条件下,其基于PreCM的改进版本相比原始版本的平均交并比(IOU)分别提升了6.91%、10.63%、4.53%、5.93%、7.48%和8.33%,平均RD值则分别降低了3.58%、4.56%、3.47%、3.66%、3.47%和3.43%。

贡献如下:

  • 基于群论,首先构建了一个旋转等变卷积群框架,用于提取与方向信息相关的特征,并数学证明了其旋转等变性。
  • 针对提出的旋转等变卷积群框架,进一步给出了具体实现------设计了基于填充的旋转等变卷积模式(PreCM)。该模式不仅能灵活应用于多尺度图像和卷积核,还可作为替代组件替换卷积操作,使网络具备旋转等变性。
  • 为定量评估旋转对分割结果的影响,我们相应提出了名为RD(旋转差异)的新评估指标。
  • 选取了六种语义分割网络,将其卷积层替换为PreCM。在二值分割、小样本分割和多类别分割任务上的大量实验,充分验证了PreCM在提升性能和鲁棒性方面的有效性。此外,与采用数据增强的网络相比,使用PreCM的网络在未增加训练样本的情况下也展现出相当的分割性能。

PreCM 的整体框架如图 6 所示。

核心创新点

  • ‌旋转等变实现‌: 通过数学推导证明,利用填充(padding)操作可在0°/90°/180°/270°实现严格旋转等变,且无需修改网络架构。 ‌
  • ‌即插即用特性‌: 可直接替换标准卷积、扩张卷积、转置卷积等多种卷积类型,适用于任意尺寸的图像和卷积核。 ‌
  • ‌评价体系‌: 首次提出Rotation Difference指标(RD),量化评估网络的抗旋转干扰能力。

数据集

  • Satellite Images of Water Bodies(卫星遥感数据)
  • 2328张遥感图像(训练1662/测试666)
  • 二分类:水体 vs 非水体
  • 任意拍摄角度
  • DRIVE(视网膜血管,医学数据)
  • FloodNet(无人机遥感数据)
  • 1445张图像(训练1120/测试325)
  • 10类:建筑、道路、水体、树木等
  • 复杂多类别场景,目标交互复杂

实验结果

  • 卫星水体图像

表 I 展示了在"卫星水体图像"数据集上,六个网络在替换 PreCM 前后的评估结果。

表 II 和表 III 呈现了我们的方法与数据增强技术以及现有旋转等变网络的定量比较结果。

  • DRIVE

该数据集的定量分析结果已详列于表 I、II 和 III 中。如表 I 清楚显示,即使在训练过程中仅使用 20 张图像,采用基于 PreCM 的替换网络也能显著提升性能。此外,我们观察到当测试图像旋转时,原始网络的性能大幅下降,在随机旋转的情况下尤其明显。相比之下,采用 PreCM 替换的分割网络不仅在四个特定角度保持了卓越的性能稳定性,而且在随机角度下,与原始网络相比,也展现出远胜一筹的分割结果和旋转鲁棒性。

  • Floodnet

与前两个数据集相比,该数据集更具挑战性,因为它包含了十个不同的类别。从表 I 可以看出,即使在更复杂的任务中,基于 PreCM 的网络在初始 0° 角度也展现出更优越的分割性能。对于原始网络,当测试图像旋转时,分割结果急剧下降。例如,当测试图像被随机角度旋转时,U-net 的 IOU 值从 76.04% 骤降至 71.02%。这充分证明了任务的复杂性会显著增强原始网络对旋转的敏感性。

可视化分析

同样地,为了直观验证 PreCM 的有效性,图 8-10 展示了分别对应于 0°、15°、135° 和 255° 的输出特征图,以及包括 0° 与 15°(红色)、0° 与 135°(绿色)、0° 与 255°(蓝色)之间旋转差异的差异图。此外,为了减轻零填充可能带来的信息丢失和边缘敏感问题,我们在旋转操作中采用了对称填充。注意,由于文章篇幅限制,我们在此仅展示网络的部分可视化结果,完整结果可在补充材料中进一步找到。

图 8 展示了三种旋转等变网络(RIC-CNN、H-Net、E2CNN)、传统分割网络(SegNet 和 ERFNet),以及这两种网络应用数据增强和 PreCM 方法后在"卫星水体图像"数据集上的结果比较。从图 8 观察发现,当测试图像在不同角度旋转时,原始网络的输出特征图之间存在显著差异。相反,虽然使用数据增强技术的网络可以获得优越的分割结果,但在差异图中仍然可以看到一些明显的像素变化。类似地,尽管旋转等变网络通过设计等变表示来学习不同方向的特征信息,从而在不依赖额外数据增强的情况下提高了分割精度,但这些网络在面对各种角度时仍难以保持良好的 consistency。然而,我们提出的基于 PreCM 的网络不仅展示了出色的分割性能,而且与其他网络相比,其差异图中发生变化的像素显著减少。这充分验证了在相对简单的二值分割数据集中,基于 PreCM 的网络在抵抗旋转干扰方面具有显著优势。

图 9 展示了这些网络在 DRIVE 数据集上的测试结果。显然,无论是原始网络还是融入了旋转设计的网络,它们在不同角度下的输出图像都存在显著差异。这主要归因于两个因素:首先,相对较少的样本数量导致网络缺乏足够的信息来捕捉特征;其次,数据集中包含许多细微的分支结构,这对网络的分割性能构成了相当大的挑战。然而,尽管如此,基于 PreCM 的网络在分割结果的准确性和旋转差异方面,仍然优于基于数据增强的网络和现有的旋转等变网络。

图 10 展示了在 Floodnet 数据集上的可视化结果。可以观察到,在包含十个类别的更复杂分割数据集中,原始语义分割网络的分割精度和一致性显著低于基于数据增强和 PreCM 的方法。值得注意的是,尽管旋转等变网络在某些数据集中有潜力,但它们在该数据集上的表现不尽如人意,在旋转差异图像中尤其明显,这凸显了当前旋转等变网络在处理复杂任务方面的局限性。相比之下,基于 PreCM 的网络在处理此类复杂任务时表现更好,尽管性能仍有提升空间,这也是我们未来研究的重点。

Coovally AI 开发平台

在Coovally的模型仓库中,YOLOv3/v4/v5/v7/v8/11、Faster R-CNN、RetinaNet、DETR、DeepSort、Mask R-CNN... 主流和前沿模型触手可及 。你不用再四处寻找、下载、配置环境

一键加载,自由组合! 想试试YOLOv8在铁路小目标上的效果?还是探索Mask R-CNN对农业病虫害的识别能力?点几下鼠标,模型就绪。

  • 内置海量开源数据集 & 便捷数据管理!

Coovally 集成了或提供便捷接入众多权威开源航拍数据集,涵盖交通、城市、农业等多个领域。省去你80%的数据搜集整理时间!

即使你有自己的数据,平台提供强大的数据标注、管理、版本控制工具,让你的数据工作流井井有条。

  • 高效训练平台 & 自动化!

告别复杂的命令行和配置!Coovally 提供直观的可视化训练界面,清晰设置参数,监控训练过程(Loss, mAP等指标实时可视化)。

并行实验,效率倍增! 想同时比较 YOLOv5s, YOLOv7-tiny在你的数据集上的表现?一键发起多个训练任务并行运行,结果一目了然,快速锁定候选者。支持分布式训练,充分利用硬件资源,大幅缩短训练时间。

  • 开发调试,享受本地级操作!

在实际使用中,开发者可以借助 Coovally 平台, 通过 SSH 协议使用熟悉的工具(如 VS Code、Cursor、WindTerm 等)远程连接 Coovally 云端算力资源,进行实时代码开发与调试,享受本地级操作体验的同时,充分利用平台提供的高性能 GPU 加速训练过程。

  • 可视化结果界面,清晰可见!

Coovally平台还提供直观的可视化训练界面,清晰设置参数,监控训练过程(Loss, mAP等指标实时可视化)。并行实验,效率倍增!

点击下方链接,快速访问 [Coovally官网] ,开启一站式算法选型、训练、优化之旅。

平台链接: ****www.coovally.com

相关推荐
超级大只老咪4 小时前
哈希表(算法)
java·算法·哈希算法
Francek Chen4 小时前
【深度学习计算机视觉】12:风格迁移
人工智能·pytorch·深度学习·计算机视觉·风格迁移
拓端研究室4 小时前
专题:2025年AI Agent智能体行业价值及应用分析报告:核心趋势、经济影响与治理框架|附700+份报告PDF、数据仪表盘汇总下载
人工智能
2501_930799244 小时前
访答个人知识库,浏览器。Al编辑器,云知识库,RAG,企业知识库,本地知识库,访答编辑器,云知识库,私有知识库,Pdf转Word,……
人工智能
猫头虎4 小时前
OpenAI发布构建AI智能体的实践指南:实用框架、设计模式与最佳实践解析
人工智能·设计模式·开源·aigc·交互·pip·ai-native
jie*4 小时前
小杰深度学习(seventeen)——视觉-经典神经网络——MObileNetV3
人工智能·python·深度学习·神经网络·numpy·matplotlib
好奇龙猫4 小时前
【学习AI-相关路程-mnist手写数字分类-一段学习的结束:自我学习AI-复盘-代码-了解原理-综述(5) 】
人工智能·学习·分类
A-大程序员4 小时前
【Pytorch】分类问题交叉熵
人工智能·pytorch·分类
一车小面包4 小时前
基于bert-base-chinese的外卖评论情绪分类项目
人工智能·机器学习