【arXiv2025】计算机视觉|即插即用|LWGA:即插即用!LWGA模块,视觉性能炸裂!

论文地址:https://arxiv.org/abs/2501.10040

代码地址:https://github.com/lwCVer/LWGANet


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881

摘要

遥感(RS)视觉任务在学术和实践中具有重要意义。然而,它们面临着许多阻碍有效特征提取的挑战,包括检测和识别单个图像中尺度变化很大的多个目标 。虽然之前的双分支或多分支架构策略 可以有效地管理这些目标差异,但它们同时导致计算需求和参数数量的大幅增加 。因此,这些架构在资源受限的设备上的部署可行性较低 。当代主要为自然图像设计的轻量级骨干网络经常难以有效地从多尺度目标中提取特征,这会影响其在RS视觉任务中的效率。

本研究介绍了LWGANet ,这是一种专门为RS视觉任务定制的轻量级骨干网络 ,它包含一个新颖的轻量级组注意力(LWGA)模块,旨在应对这些特定挑战。LWGA模块专为RS图像量身定制,巧妙地利用冗余特征来提取从局部到全局尺度的各种空间信息,而不会增加额外的复杂性或计算开销。这有助于在高效的框架内跨多个尺度进行精确的特征提取。

本研究在跨越四个关键RS视觉任务(场景分类、定向目标检测、语义分割和变化检测)十二个数据集 上对LWGANet进行了严格评估。结果证实了LWGANet的广泛适用性及其在保持高性能和低复杂性之间 的最佳平衡的能力,在不同的数据集上实现了最先进的结果 。对于需要强大的RS图像处理能力的资源有限的场景 ,LWGANet成为一种新颖的解决方案。

引言

遥感(RS)视觉任务 在环境监测、城市规划和农业估产等领域具有重要意义。然而,有效地从遥感图像中提取特征面临诸多挑战,尤其是在单幅图像中检测和识别尺寸变化较大 的多个目标。虽然现有的双分支或多分支网络结构 能够有效处理目标尺寸变化,但会导致计算量和参数量大幅增加 ,限制了其在资源受限设备上的部署。此外,为自然图像设计的轻量级骨干网络 通常难以有效地从多尺度目标中提取特征,这影响了其在遥感视觉任务中的效率。

本研究致力于解决这些挑战,并提出LWGANet ,这是一种专为遥感视觉任务 设计的轻量级骨干网络 ,它引入了一个名为轻量级组注意力(LWGA)的新型模块。LWGA模块针对遥感图像的特点,巧妙地利用特征冗余,在不增加额外复杂度或计算开销 的情况下,提取从局部到全局范围 的广泛空间信息,从而在高效的框架 内实现多尺度精确的特征提取

传统的多尺度目标识别和检测方法 难以有效处理和区分不同尺寸的目标,这要求识别或检测系统能够适应从微小细节到较大结构 的各种变化,同时保持对目标属性的敏感性和分辨率。这种复杂性源于不同尺度变化的目标可能需要不同的特征提取和识别方法,而传统的识别和检测模型通常难以解决这种尺寸多样性

为了解决上述挑战,研究人员提出了各种解决方案,例如多尺度特征分析多分支结构特征提取技术多尺度特征分析 通过多级特征金字塔网络(FPN)详细分析不同尺度目标的表达,旨在提高识别精度和适应性。多分支结构特征提取技术通过并行连接多个分支模块来处理不同尺度的目标特征,利用每个分支模块的独特优势来提取大尺度变化目标的特征,以实现有效检测和识别。

然而,这些方法在实际应用中仍然存在局限性。例如,多尺度结构可能无法全面地表征特定尺度下各种目标尺寸的特征,而多分支结构由于参数和计算量的增加 ,加剧了轻量级遥感视觉任务 的难度。此外,传统的轻量级网络通常没有考虑到遥感图像的具体特征,例如多个目标和目标尺寸的显著变化 ,导致识别和检测能力不足。因此,与自然场景中的视觉任务相比,遥感视觉任务中的轻量化进程明显滞后

LWGA模块 旨在增强遥感图像中多尺度目标 的表示。该模块将输入特征图划分为不同的子模块,而不会增加其空间维度 ,从而在多尺度特征提取和轻量级计算效率 之间实现了平衡。LWGA 模块利用特征图中固有的冗余性,通过多种特征提取技术处理每个分区,包括点注意力、局部注意力、中程注意力和全局注意力 ,这些技术旨在改进对表现出大尺度变化 的目标的关注。随后,融合提取的特征以优化特征表示,从而有效地缓解轻量级特征提取阶段中与多尺度目标识别相关的挑战。

论文创新点

轻量级组注意力(LWGA)模块

本研究提出了一种名为 轻量级组注意力(LWGA)模块 🍃 的新型机制,用于在轻量级环境下高效提取遥感图像中多尺度目标的特征。LWGA模块的核心创新点在于它能够在不增加空间维度的情况下,将输入特征图分割成不同的子模块,并在每个子模块上应用多种特征提取技术,从而在多尺度特征提取和轻量级计算效率之间取得平衡。

LWGA 模块的多尺度特征提取策略

LWGA模块利用了特征图中固有的冗余性,通过多种特征提取技术处理每个分区,包括点注意力、局部注意力、中程注意力和全局注意力,这些技术旨在改进对展现大尺度变化的目标的关注。随后,将提取的特征融合以优化特征表示,从而有效地缓解了轻量级特征提取阶段中多尺度目标识别相关的挑战。

以下是 LWGA 模块的几个关键子模块:

  1. 📌 门控点注意力(GPA)子模块: 📌

    • 用于有效地提取极小的特征。
    • 利用点注意力原则,GPA优先考虑来自微小目标的特征,保留了传统方法通常忽略的细微差别。
  2. 常规局部注意力(RLA)子模块:

    • 用于提取局部特征。
    • 借鉴标准卷积的固有能力,RLA模块能够精确有效地提取局部特征。
  3. 🔶 稀疏中程注意力(SMA)子模块: 🔶

    • 针对轻量级框架内的中等尺度目标特征。
    • SMA 模块结合了上下文信息,以有效地保留具有不规则结构的中等大小目标的基本特征。
  4. 🌐 稀疏全局注意力(SGA)子模块: 🌐

    • 用于在轻量级约束下增强整体特征表示。
    • SGA 子模块擅长关联远程特征,并提供强大的全局摘要能力,并针对资源受限的环境进行了修改。
    • 根据网络所处的阶段采用不同的策略:
      • 阶段1和2:使用TGFI模块缩小特征尺寸,并使用空洞卷积代替全局注意力机制。
      • 阶段3:使用视觉注意力机制处理缩小尺寸后的特征。
      • 阶段4:直接使用视觉注意力机制处理原始特征。

TGFI 模块:减轻全局注意力计算负担

🚀 TGFI 模块 🚀 能够减轻全局注意力的计算负担并扩大感受野。TGFI模块提取输入特征图中最重要的 k 个特征,并保留其坐标位置信息。然后,计算这些特征之间的全局交互,并在最后使用坐标位置信息将特征图恢复到原始大小。这种方法有效地降低了计算复杂度,同时保留了全局上下文信息。

论文实验


相关推荐
醉方休7 分钟前
TensorFlow.js高级功能
javascript·人工智能·tensorflow
云宏信息11 分钟前
赛迪顾问《2025中国虚拟化市场研究报告》解读丨虚拟化市场迈向“多元算力架构”,国产化与AI驱动成关键变量
网络·人工智能·ai·容器·性能优化·架构·云计算
红苕稀饭66618 分钟前
VideoChat-Flash论文阅读
人工智能·深度学习·机器学习
周杰伦_Jay18 分钟前
【图文详解】强化学习核心框架、数学基础、分类、应用场景
人工智能·科技·算法·机器学习·计算机视觉·分类·数据挖掘
黄啊码1 小时前
Coze新品实测:当AI开始像产品经理思考,我和程序员吵架的次数少了
人工智能·agent·coze
jie*1 小时前
小杰机器学习(six)——概率论——1.均匀分布2.正态分布3.数学期望4.方差5.标准差6.多维随机变量及其分布
人工智能·机器学习·概率论
挽安学长1 小时前
通过 gaccode在国内使用ClaudeCode,Windows、Mac 用户配置指南!
人工智能
Monkey的自我迭代1 小时前
背景建模(基于视频,超炫)项目实战!
opencv·计算机视觉·音视频
唐某人丶2 小时前
教你如何用 JS 实现 Agent 系统(3)—— 借鉴 Cursor 的设计模式实现深度搜索
前端·人工智能·aigc
weixin_457340212 小时前
RTX5060 Ti显卡安装cuda版本PyTorch踩坑记录
人工智能·pytorch·python