【CVPR2025】计算机视觉|即插即用|DSSA:即插即用!显著提升模型性能的双重稀疏注意力模块!

论文地址:https://arxiv.org/pdf/2506.03684

代码地址:https://github.com/XiaZunhui/DSSAU-Net


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881

摘要

在本研究中,分娩过程中的传统方法包括侵入性阴道检查,但研究表明,这些方法既主观不准确 。超声辅助诊断提供了一种客观有效 的方法,通过两个关键参数评估胎儿头部位置:进展角度(AoP)头-耻骨联合距离(HSD) ,这些参数是通过分割胎儿头部(FH) 耻骨联合(PS)计算得出的,有助于临床医生确保顺利分娩。因此,准确分割 FH 和 PS 至关重要 。本研究提出了一种名为 DSSAU-Net稀疏自注意力网络架构 ,用于分割 FH 和 PS,该架构具有良好的性能和高计算效率 。具体而言,本研究在每个阶段堆叠不同数量的双稀疏选择注意力(DSSA)块,以形成对称的 U 形编码器-解码器网络架构。对于给定的查询,DSSA 旨在分别在区域和像素级别显式执行一次稀疏标记选择,这有利于在提取最相关特征的同时进一步降低计算复杂度。为了弥补上采样过程中的信息损失,本研究设计了带有卷积的跳跃连接 。此外,本研究采用多尺度特征融合 来丰富模型的全局和局部信息。本研究使用 2024 年胎儿超声诊断大赛(IUGC)测试集验证了 DSSAU-Net 的性能,在 MICCAI IUGC 2024 竞赛中,本研究在分类和分割任务中获得了第四名 ,证明了其有效性。

引言

本研究致力于胎儿头部 (FH) 和耻骨联合 (PS) 的精确分割 ,以辅助临床医生进行超声辅助分娩,并最终确保顺利分娩。传统的分娩过程依赖于侵入性的阴道检查,这种方法既主观又不准确。超声辅助诊断提供了一种客观有效的方法,通过分割FH和PS来计算两个关键参数:进展角度 (AoP) 和头-耻骨联合距离 (HSD) ,从而评估胎位。因此,FH 和 PS 的精确分割至关重要

目前,许多方法已开始关注提高 FH 和 PS 的分割性能。例如,胎儿头-耻骨联合分割网络 (FH-PSSNet) 使用包含双重注意力模块、多尺度特征筛选模块和方向引导块的编码器-解码器框架,用于自动 AoP 测量。双路径边界引导残差网络 (DBRN) 集成了多尺度加权模块 (MWM)、增强边界模块 (EBM) 和边界引导双重注意力残差模块 (BDRM),以应对在低对比度或解剖边界模糊的情况下实现全自动和准确 FH-PS 分割的挑战。此外,BRAU-Net 仅使用区域级稀疏标记进行 FH-PS 分割,由于散斑噪声、超声伪影和目标边界模糊,这种方法对于小目标不够鲁棒。

然而,现有方法在处理超声图像中固有的噪声、伪影和低对比度方面仍然存在局限性,特别是在区分模糊的解剖边界时。此外,一些方法的计算复杂度较高,限制了其在实时临床环境中的应用。本研究为了解决这些问题,探索了将稀疏注意力机制与卷积相结合 ,并采用多尺度特征融合方法 ,以实现更有效的 FH 和 PS 分割。为此,本研究提出了一种名为 DSSAU-Net 的新型 U 形稀疏自注意力网络架构,用于 FH 和 PS 的分割。

论文创新点

本研究提出了名为DSSA(Dual Sparse Selection Attention)的模块,它是一种用于计算机视觉的即插即用模块,具有以下几个创新点:

  1. 双重稀疏选择机制:

    • DSSA的核心创新在于其双重稀疏选择机制。它在区域级别和像素级别都执行了稀疏的token选择操作。
    • 首先,在区域级别,DSSA根据区域级查询和键值之间的注意力矩阵得分,选择与给定区域最相关的其他区域,并过滤掉不相关的区域。
    • 然后,在像素级别,DSSA对每个区域内进行类似的操作,选择与给定像素最相关的像素,进一步减少了计算复杂度并提取了最相关的特征。
  2. 🔍 结合局部上下文增强: 🔍

    • 为了弥补在稀疏选择过程中可能丢失的细粒度信息,DSSA在最终输出中添加了一个局部上下文增强项。
    • 这是一个5x5的深度卷积操作,旨在增强局部特征的表达能力,从而提高像素级分割的精度。
  3. 🚀 高效的计算复杂度: 🚀

    • 通过双重稀疏选择机制,DSSA有效地减少了计算复杂度。
    • 相比于传统的全局自注意力机制,DSSA只关注最相关的区域和像素,避免了对所有token进行计算,从而显著降低了计算成本,使其更适用于处理高分辨率图像和实时应用。
  4. 🔌 可作为即插即用模块: 🔌

    • DSSA模块设计灵活,可以轻松集成到各种计算机视觉架构中。
    • 本研究中,DSSA被用于构建U型网络DSSAU-Net,证明了其在语义分割任务中的有效性。DSSA模块的即插即用特性使其具有广泛的应用潜力,可以用于改进其他视觉任务的性能。
  5. 💡 动态的内容感知机制: 💡

    • DSSA的注意力机制是内容感知的,这意味着它可以根据输入图像的内容动态地选择最相关的区域和像素。
    • 这种动态选择机制使得DSSA能够更好地适应不同的图像内容和场景,从而提高特征提取的效率和准确性。

论文实验


相关推荐
CV视觉1 分钟前
AI 实战篇:用 LangGraph 串联 RAG+MCP Server,打造能直接操控 Jira 的智能体
人工智能·深度学习·机器学习·自然语言处理·langchain·prompt·jira
骄傲的心别枯萎3 分钟前
RV1126 NO.42:OPENCV形态学基础之一:膨胀
人工智能·opencv·计算机视觉
亚马逊云开发者5 分钟前
Agentic AI基础设施实践经验系列(五):Agent应用系统中的身份认证与授权管理
人工智能
爱编程的鱼30 分钟前
ESLint 是什么?
开发语言·网络·人工智能·网络协议
星光一影31 分钟前
Spring Boot 3+Spring AI 打造旅游智能体!集成阿里云通义千问,多轮对话 + 搜索 + PDF 生成撑全流程
人工智能·spring boot·spring
IT_陈寒35 分钟前
Vite性能优化实战:5个被低估的配置让你的开发效率提升50%
前端·人工智能·后端
IT_陈寒37 分钟前
Java性能调优的7个被低估的技巧:从代码到JVM全链路优化
前端·人工智能·后端
电子脑洞工坊42 分钟前
以opencv为例说明怎么才算会用一个库
人工智能·opencv·计算机视觉
渡我白衣44 分钟前
链接的迷雾:odr、弱符号与静态库的三国杀
android·java·开发语言·c++·人工智能·深度学习·神经网络
云卓SKYDROID1 小时前
无人机探测器技术要点解析
人工智能·无人机·材质·高科技·云卓科技