【CVPR2025】计算机视觉|即插即用|DSSA:即插即用！显著提升模型性能的双重稀疏注意力模块！

代码地址：https://github.com/XiaZunhui/DSSAU-Net

关注UP CV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。
https://space.bilibili.com/473764881

摘要

在本研究中，分娩过程中的传统方法包括侵入性阴道检查，但研究表明，这些方法既主观又不准确 。超声辅助诊断提供了一种客观有效 的方法，通过两个关键参数评估胎儿头部位置：进展角度（AoP）和头-耻骨联合距离（HSD） ，这些参数是通过分割胎儿头部（FH）和耻骨联合（PS）计算得出的，有助于临床医生确保顺利分娩。因此，准确分割 FH 和 PS 至关重要 。本研究提出了一种名为 DSSAU-Net 的稀疏自注意力网络架构，用于分割 FH 和 PS，该架构具有良好的性能和高计算效率 。具体而言，本研究在每个阶段堆叠不同数量的双稀疏选择注意力（DSSA）块，以形成对称的 U 形编码器-解码器网络架构。对于给定的查询，DSSA 旨在分别在区域和像素级别显式执行一次稀疏标记选择，这有利于在提取最相关特征的同时进一步降低计算复杂度。为了弥补上采样过程中的信息损失，本研究设计了带有卷积的跳跃连接。此外，本研究采用多尺度特征融合 来丰富模型的全局和局部信息。本研究使用 2024 年胎儿超声诊断大赛（IUGC）测试集验证了 DSSAU-Net 的性能，在 MICCAI IUGC 2024 竞赛中，本研究在分类和分割任务中获得了第四名 ，证明了其有效性。

引言

本研究致力于胎儿头部 (FH) 和耻骨联合 (PS) 的精确分割 ，以辅助临床医生进行超声辅助分娩，并最终确保顺利分娩。传统的分娩过程依赖于侵入性的阴道检查，这种方法既主观又不准确。超声辅助诊断提供了一种客观有效的方法，通过分割FH和PS来计算两个关键参数：进展角度 (AoP) 和头-耻骨联合距离 (HSD) ，从而评估胎位。因此，FH 和 PS 的精确分割至关重要。

目前，许多方法已开始关注提高 FH 和 PS 的分割性能。例如，胎儿头-耻骨联合分割网络 (FH-PSSNet) 使用包含双重注意力模块、多尺度特征筛选模块和方向引导块的编码器-解码器框架，用于自动 AoP 测量。双路径边界引导残差网络 (DBRN) 集成了多尺度加权模块 (MWM)、增强边界模块 (EBM) 和边界引导双重注意力残差模块 (BDRM)，以应对在低对比度或解剖边界模糊的情况下实现全自动和准确 FH-PS 分割的挑战。此外，BRAU-Net 仅使用区域级稀疏标记进行 FH-PS 分割，由于散斑噪声、超声伪影和目标边界模糊，这种方法对于小目标不够鲁棒。

然而，现有方法在处理超声图像中固有的噪声、伪影和低对比度方面仍然存在局限性，特别是在区分模糊的解剖边界时。此外，一些方法的计算复杂度较高，限制了其在实时临床环境中的应用。本研究为了解决这些问题，探索了将稀疏注意力机制与卷积相结合 ，并采用多尺度特征融合方法 ，以实现更有效的 FH 和 PS 分割。为此，本研究提出了一种名为 DSSAU-Net 的新型 U 形稀疏自注意力网络架构，用于 FH 和 PS 的分割。

论文创新点

本研究提出了名为DSSA（Dual Sparse Selection Attention）的模块，它是一种用于计算机视觉的即插即用模块，具有以下几个创新点：

✨ 双重稀疏选择机制: ✨
- DSSA的核心创新在于其双重稀疏选择机制。它在区域级别和像素级别都执行了稀疏的token选择操作。
- 首先，在区域级别，DSSA根据区域级查询和键值之间的注意力矩阵得分，选择与给定区域最相关的其他区域，并过滤掉不相关的区域。
- 然后，在像素级别，DSSA对每个区域内进行类似的操作，选择与给定像素最相关的像素，进一步减少了计算复杂度并提取了最相关的特征。
🔍 结合局部上下文增强: 🔍
- 为了弥补在稀疏选择过程中可能丢失的细粒度信息，DSSA在最终输出中添加了一个局部上下文增强项。
- 这是一个5x5的深度卷积操作，旨在增强局部特征的表达能力，从而提高像素级分割的精度。
🚀 高效的计算复杂度: 🚀
- 通过双重稀疏选择机制，DSSA有效地减少了计算复杂度。
- 相比于传统的全局自注意力机制，DSSA只关注最相关的区域和像素，避免了对所有token进行计算，从而显著降低了计算成本，使其更适用于处理高分辨率图像和实时应用。
🔌 可作为即插即用模块: 🔌
- DSSA模块设计灵活，可以轻松集成到各种计算机视觉架构中。
- 本研究中，DSSA被用于构建U型网络DSSAU-Net，证明了其在语义分割任务中的有效性。DSSA模块的即插即用特性使其具有广泛的应用潜力，可以用于改进其他视觉任务的性能。
💡 动态的内容感知机制: 💡
- DSSA的注意力机制是内容感知的，这意味着它可以根据输入图像的内容动态地选择最相关的区域和像素。
- 这种动态选择机制使得DSSA能够更好地适应不同的图像内容和场景，从而提高特征提取的效率和准确性。

【CVPR2025】计算机视觉|即插即用|DSSA:即插即用！显著提升模型性能的双重稀疏注意力模块！

摘要

引言

论文创新点

论文实验