【arXiv2025】计算机视觉|即插即用|LWGA:即插即用!LWGA模块,视觉性能炸裂!

论文地址:https://arxiv.org/abs/2501.10040

代码地址:https://github.com/lwCVer/LWGANet


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881

摘要

遥感(RS)视觉任务在学术和实践中具有重要意义。然而,它们面临着许多阻碍有效特征提取的挑战,包括检测和识别单个图像中尺度变化很大的多个目标 。虽然之前的双分支或多分支架构策略 可以有效地管理这些目标差异,但它们同时导致计算需求和参数数量的大幅增加 。因此,这些架构在资源受限的设备上的部署可行性较低 。当代主要为自然图像设计的轻量级骨干网络经常难以有效地从多尺度目标中提取特征,这会影响其在RS视觉任务中的效率。

本研究介绍了LWGANet ,这是一种专门为RS视觉任务定制的轻量级骨干网络 ,它包含一个新颖的轻量级组注意力(LWGA)模块,旨在应对这些特定挑战。LWGA模块专为RS图像量身定制,巧妙地利用冗余特征来提取从局部到全局尺度的各种空间信息,而不会增加额外的复杂性或计算开销。这有助于在高效的框架内跨多个尺度进行精确的特征提取。

本研究在跨越四个关键RS视觉任务(场景分类、定向目标检测、语义分割和变化检测)十二个数据集 上对LWGANet进行了严格评估。结果证实了LWGANet的广泛适用性及其在保持高性能和低复杂性之间 的最佳平衡的能力,在不同的数据集上实现了最先进的结果 。对于需要强大的RS图像处理能力的资源有限的场景 ,LWGANet成为一种新颖的解决方案。

引言

遥感(RS)视觉任务 在环境监测、城市规划和农业估产等领域具有重要意义。然而,有效地从遥感图像中提取特征面临诸多挑战,尤其是在单幅图像中检测和识别尺寸变化较大 的多个目标。虽然现有的双分支或多分支网络结构 能够有效处理目标尺寸变化,但会导致计算量和参数量大幅增加 ,限制了其在资源受限设备上的部署。此外,为自然图像设计的轻量级骨干网络 通常难以有效地从多尺度目标中提取特征,这影响了其在遥感视觉任务中的效率。

本研究致力于解决这些挑战,并提出LWGANet ,这是一种专为遥感视觉任务 设计的轻量级骨干网络 ,它引入了一个名为轻量级组注意力(LWGA)的新型模块。LWGA模块针对遥感图像的特点,巧妙地利用特征冗余,在不增加额外复杂度或计算开销 的情况下,提取从局部到全局范围 的广泛空间信息,从而在高效的框架 内实现多尺度精确的特征提取

传统的多尺度目标识别和检测方法 难以有效处理和区分不同尺寸的目标,这要求识别或检测系统能够适应从微小细节到较大结构 的各种变化,同时保持对目标属性的敏感性和分辨率。这种复杂性源于不同尺度变化的目标可能需要不同的特征提取和识别方法,而传统的识别和检测模型通常难以解决这种尺寸多样性

为了解决上述挑战,研究人员提出了各种解决方案,例如多尺度特征分析多分支结构特征提取技术多尺度特征分析 通过多级特征金字塔网络(FPN)详细分析不同尺度目标的表达,旨在提高识别精度和适应性。多分支结构特征提取技术通过并行连接多个分支模块来处理不同尺度的目标特征,利用每个分支模块的独特优势来提取大尺度变化目标的特征,以实现有效检测和识别。

然而,这些方法在实际应用中仍然存在局限性。例如,多尺度结构可能无法全面地表征特定尺度下各种目标尺寸的特征,而多分支结构由于参数和计算量的增加 ,加剧了轻量级遥感视觉任务 的难度。此外,传统的轻量级网络通常没有考虑到遥感图像的具体特征,例如多个目标和目标尺寸的显著变化 ,导致识别和检测能力不足。因此,与自然场景中的视觉任务相比,遥感视觉任务中的轻量化进程明显滞后

LWGA模块 旨在增强遥感图像中多尺度目标 的表示。该模块将输入特征图划分为不同的子模块,而不会增加其空间维度 ,从而在多尺度特征提取和轻量级计算效率 之间实现了平衡。LWGA 模块利用特征图中固有的冗余性,通过多种特征提取技术处理每个分区,包括点注意力、局部注意力、中程注意力和全局注意力 ,这些技术旨在改进对表现出大尺度变化 的目标的关注。随后,融合提取的特征以优化特征表示,从而有效地缓解轻量级特征提取阶段中与多尺度目标识别相关的挑战。

论文创新点

轻量级组注意力(LWGA)模块

本研究提出了一种名为 轻量级组注意力(LWGA)模块 🍃 的新型机制,用于在轻量级环境下高效提取遥感图像中多尺度目标的特征。LWGA模块的核心创新点在于它能够在不增加空间维度的情况下,将输入特征图分割成不同的子模块,并在每个子模块上应用多种特征提取技术,从而在多尺度特征提取和轻量级计算效率之间取得平衡。

LWGA 模块的多尺度特征提取策略

LWGA模块利用了特征图中固有的冗余性,通过多种特征提取技术处理每个分区,包括点注意力、局部注意力、中程注意力和全局注意力,这些技术旨在改进对展现大尺度变化的目标的关注。随后,将提取的特征融合以优化特征表示,从而有效地缓解了轻量级特征提取阶段中多尺度目标识别相关的挑战。

以下是 LWGA 模块的几个关键子模块:

  1. 📌 门控点注意力(GPA)子模块: 📌

    • 用于有效地提取极小的特征。
    • 利用点注意力原则,GPA优先考虑来自微小目标的特征,保留了传统方法通常忽略的细微差别。
  2. 常规局部注意力(RLA)子模块:

    • 用于提取局部特征。
    • 借鉴标准卷积的固有能力,RLA模块能够精确有效地提取局部特征。
  3. 🔶 稀疏中程注意力(SMA)子模块: 🔶

    • 针对轻量级框架内的中等尺度目标特征。
    • SMA 模块结合了上下文信息,以有效地保留具有不规则结构的中等大小目标的基本特征。
  4. 🌐 稀疏全局注意力(SGA)子模块: 🌐

    • 用于在轻量级约束下增强整体特征表示。
    • SGA 子模块擅长关联远程特征,并提供强大的全局摘要能力,并针对资源受限的环境进行了修改。
    • 根据网络所处的阶段采用不同的策略:
      • 阶段1和2:使用TGFI模块缩小特征尺寸,并使用空洞卷积代替全局注意力机制。
      • 阶段3:使用视觉注意力机制处理缩小尺寸后的特征。
      • 阶段4:直接使用视觉注意力机制处理原始特征。

TGFI 模块:减轻全局注意力计算负担

🚀 TGFI 模块 🚀 能够减轻全局注意力的计算负担并扩大感受野。TGFI模块提取输入特征图中最重要的 k 个特征,并保留其坐标位置信息。然后,计算这些特征之间的全局交互,并在最后使用坐标位置信息将特征图恢复到原始大小。这种方法有效地降低了计算复杂度,同时保留了全局上下文信息。

论文实验


相关推荐
ezl1fe29 分钟前
RAG 每日一技(十三):检索一次不够?学习查询改写与迭代式检索!
人工智能·后端
athink_cn29 分钟前
【紧急预警】NVIDIA Triton推理服务器漏洞链可导致RCE!
人工智能·安全·网络安全·ai
大千AI助手29 分钟前
FLAN-T5:大规模指令微调的统一语言模型框架
人工智能·神经网络·语言模型·自然语言处理·微调·t5·finetune
Baihai_IDP32 分钟前
为何说「新数据源」是推动 AI 发展的核心动力?
人工智能·面试·llm
YBCarry_段松啓40 分钟前
n8n:连接AI与自动化的超级桥梁
人工智能·llm
辣么大42 分钟前
MCP和语音助手有什么关系
人工智能
延凡科技1 小时前
延凡科技光伏清洗预测系统
大数据·运维·人工智能·科技·无人机·智慧城市
Pocker_Spades_A1 小时前
AI 对话高效输入指令攻略(四):AI+Apache ECharts:生成各种专业图表
人工智能·echarts
拓端研究室1 小时前
专题:2025生命科学与生物制药全景报告:产业图谱、投资方向及策略洞察|附130+份报告PDF、原数据表汇总下载
大数据·人工智能
正在走向自律1 小时前
豆包新模型与 PromptPilot 实操体验测评,AI 辅助创作的新范式探索
人工智能·火山引擎·promptpilot·豆包新模型·seed-1.6-think·火山方舟·ai产品体验