【南开大学-程明明组-AAAI26】一种用于多模态遥感目标检测的统一模型


文章:SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

代码:https://github.com/zcablii/SM3Det

单位:南开大学


一、问题背景:传统模型的"单一困境"

  1. 模态局限:过去的模型大多针对单一数据集训练,比如专门处理光学图像的模型,遇到雷达图像就"束手无策",无法利用不同模态间的共性知识。

  2. 任务单一:遥感场景中,目标可能是水平摆放的汽车,也可能是倾斜的桥梁,但传统模型只能固定输出一种格式的检测框,灵活性极差。

  3. 适配复杂:无人机、卫星等平台常搭载多种传感器,若为每种模态、每个任务都配一个模型,不仅维护成本高,还会浪费计算资源,难以满足低空经济、航空监测等实时性需求。

这些问题的核心在于:多模态数据的"差异鸿沟"和多任务学习的"优化矛盾",传统模型要么无法兼顾不同模态的独特性,要么在多任务训练中出现"有的学不好、有的学太满"的情况。

二、方法创新:SM3Det的"双核心设计"

为解决上述困境,研究团队提出了统一模型SM3Det,从架构和优化两方面给出创新方案,还配套了专用数据集:

1. 全新任务与数据集:M2Det+SOI-Det

  • 提出M2Det任务:要求一个模型能处理任意模态(雷达、光学、红外),同时支持水平框(HBB)和旋转框(OBB)两种检测任务。

  • 构建SOI-Det数据集:合并SARDet-100K(雷达)、DOTA(光学)、DroneVehicle(红外)三大数据集,覆盖6-15类目标,提供统一的训练基准。

2. 架构创新:网格级稀疏MoE backbone

  • 核心思路:给模型配"多个专业小专家",而非单一参数网络。

  • 具体设计:在模型骨干网络中嵌入网格级专家模块,每个专家专门处理一类局部特征(比如有的专看目标轮廓,有的专看背景纹理)。

  • 优势:通过动态路由,让每个局部网格特征都能匹配到最适合的专家,既学到不同模态的共性(比如"目标都有空间轮廓"),又保留每种模态的独特性(比如雷达图像的纹理特征),避免特征冲突。

3. 优化创新:动态子模块优化(DSO)

  • 核心思路:给不同任务、不同模态"量身定制学习节奏",避免优化不同步。

  • 具体设计:

    • 针对任务头:根据每个任务的训练损失动态调整学习率,难学的任务多分配资源,学得快的任务适当减速,平衡收敛速度。

    • 针对骨干网络:通过计算损失的历史一致性,判断训练稳定性,稳定时加速学习,不稳定时减速调整,保证优化方向不冲突。

三、实验结果:性能全面领先

在SOI-Det数据集上的测试显示,SM3Det的表现远超传统方法:

  1. 整体性能:综合检测精度(mAP)达到50.20,比单独训练的模型组合(48.23)提升1.97个百分点,也超过UniDet、DA网络等主流方法。

  2. 模态适配:在雷达数据集上mAP达60.64,光学数据集46.47,红外数据集48.87,均优于同类型模型。

  3. 灵活通用:适配ConvNext、VAN、LSKNet等多种骨干网络,兼容单阶段、两阶段等不同检测器,更换架构后仍能保持领先。

  4. 参数高效:轻量化版本(仅含DSO)仅66M参数,却比66M参数的传统联合训练模型性能高2.35个mAP,不用堆参数也能出效果。

四、优势与局限

核心优势

  1. 通用性强:一个模型搞定多模态、多任务,无需为每种场景单独开发,大幅降低工业应用成本。

  2. 效率更高:支持多模态数据批量处理,充分发挥GPU并行计算能力,提升边缘设备的计算和能源效率。

  3. 扩展性好:可灵活适配不同骨干网络和检测器,后续可轻松扩展到更多模态和任务。

现存局限

  1. 未涵盖多光谱影像这一重要遥感模态,主要受限于缺乏大规模多光谱目标检测数据集。

  2. 网格级专家的数量和激活策略仍需根据具体场景微调,暂无通用自适应方案。

五、一句话总结

SM3Det通过"网格级MoE架构+DSO优化",首次实现了遥感场景下"任意模态+任意检测任务"的统一处理,性能和通用性双领先,为低空经济、卫星观测等领域提供了更高效的目标检测解决方案。

相关推荐
smile_Iris2 小时前
Day 45 简单CNN
人工智能·深度学习·cnn
自不量力的A同学2 小时前
苹果发布开源 AI 模型 SHARP
人工智能
Hcoco_me2 小时前
机器学习核心概念与主流算法(通俗详细版)
人工智能·算法·机器学习·数据挖掘·聚类
Herlie2 小时前
AI 创业这三年:我的三次认知迭代与自我修正
大数据·人工智能
感谢地心引力2 小时前
【AI】加入AI绘图的视频封面快速编辑器
人工智能·python·ai·ffmpeg·音视频·pyqt·gemini
min1811234562 小时前
具身智能(Embodied AI)逼近:机器人如何更好地理解物理世界?
人工智能·机器人
空中湖2 小时前
[特殊字符] 圣诞愿望池 - 一个充满魔力的在线许愿平台
人工智能·机器学习
Jorunk2 小时前
【读论文】DNN-Based Acoustic Modeling for Russian Speech Recognition Using Kaldi
人工智能·神经网络·dnn
跟YY哥学Jira2 小时前
2026 Atlassian 认证体系重大变革:全面拥抱云时代与 AI 战略
人工智能·经验分享·项目管理·atlassian·认证·jira