【南开大学-程明明组-AAAI26】一种用于多模态遥感目标检测的统一模型


文章:SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

代码:https://github.com/zcablii/SM3Det

单位:南开大学


一、问题背景:传统模型的"单一困境"

  1. 模态局限:过去的模型大多针对单一数据集训练,比如专门处理光学图像的模型,遇到雷达图像就"束手无策",无法利用不同模态间的共性知识。

  2. 任务单一:遥感场景中,目标可能是水平摆放的汽车,也可能是倾斜的桥梁,但传统模型只能固定输出一种格式的检测框,灵活性极差。

  3. 适配复杂:无人机、卫星等平台常搭载多种传感器,若为每种模态、每个任务都配一个模型,不仅维护成本高,还会浪费计算资源,难以满足低空经济、航空监测等实时性需求。

这些问题的核心在于:多模态数据的"差异鸿沟"和多任务学习的"优化矛盾",传统模型要么无法兼顾不同模态的独特性,要么在多任务训练中出现"有的学不好、有的学太满"的情况。

二、方法创新:SM3Det的"双核心设计"

为解决上述困境,研究团队提出了统一模型SM3Det,从架构和优化两方面给出创新方案,还配套了专用数据集:

1. 全新任务与数据集:M2Det+SOI-Det

  • 提出M2Det任务:要求一个模型能处理任意模态(雷达、光学、红外),同时支持水平框(HBB)和旋转框(OBB)两种检测任务。

  • 构建SOI-Det数据集:合并SARDet-100K(雷达)、DOTA(光学)、DroneVehicle(红外)三大数据集,覆盖6-15类目标,提供统一的训练基准。

2. 架构创新:网格级稀疏MoE backbone

  • 核心思路:给模型配"多个专业小专家",而非单一参数网络。

  • 具体设计:在模型骨干网络中嵌入网格级专家模块,每个专家专门处理一类局部特征(比如有的专看目标轮廓,有的专看背景纹理)。

  • 优势:通过动态路由,让每个局部网格特征都能匹配到最适合的专家,既学到不同模态的共性(比如"目标都有空间轮廓"),又保留每种模态的独特性(比如雷达图像的纹理特征),避免特征冲突。

3. 优化创新:动态子模块优化(DSO)

  • 核心思路:给不同任务、不同模态"量身定制学习节奏",避免优化不同步。

  • 具体设计:

    • 针对任务头:根据每个任务的训练损失动态调整学习率,难学的任务多分配资源,学得快的任务适当减速,平衡收敛速度。

    • 针对骨干网络:通过计算损失的历史一致性,判断训练稳定性,稳定时加速学习,不稳定时减速调整,保证优化方向不冲突。

三、实验结果:性能全面领先

在SOI-Det数据集上的测试显示,SM3Det的表现远超传统方法:

  1. 整体性能:综合检测精度(mAP)达到50.20,比单独训练的模型组合(48.23)提升1.97个百分点,也超过UniDet、DA网络等主流方法。

  2. 模态适配:在雷达数据集上mAP达60.64,光学数据集46.47,红外数据集48.87,均优于同类型模型。

  3. 灵活通用:适配ConvNext、VAN、LSKNet等多种骨干网络,兼容单阶段、两阶段等不同检测器,更换架构后仍能保持领先。

  4. 参数高效:轻量化版本(仅含DSO)仅66M参数,却比66M参数的传统联合训练模型性能高2.35个mAP,不用堆参数也能出效果。

四、优势与局限

核心优势

  1. 通用性强:一个模型搞定多模态、多任务,无需为每种场景单独开发,大幅降低工业应用成本。

  2. 效率更高:支持多模态数据批量处理,充分发挥GPU并行计算能力,提升边缘设备的计算和能源效率。

  3. 扩展性好:可灵活适配不同骨干网络和检测器,后续可轻松扩展到更多模态和任务。

现存局限

  1. 未涵盖多光谱影像这一重要遥感模态,主要受限于缺乏大规模多光谱目标检测数据集。

  2. 网格级专家的数量和激活策略仍需根据具体场景微调,暂无通用自适应方案。

五、一句话总结

SM3Det通过"网格级MoE架构+DSO优化",首次实现了遥感场景下"任意模态+任意检测任务"的统一处理,性能和通用性双领先,为低空经济、卫星观测等领域提供了更高效的目标检测解决方案。

相关推荐
Luca_kill1 小时前
实战指南:用 Python + NLP 搭建一套轻量级 AI 舆情监控系统
人工智能·python·机器学习·nlp·舆情监控
Dxy12393102161 小时前
将 PyTorch Tensor 转换为 Python 列表
人工智能·pytorch·python
智_永无止境1 小时前
AI大模型中转平台,一个Key可以畅用国外模型
人工智能
MediaTea1 小时前
知识图谱工具简介:Protégé、Neo4j、Jena
人工智能·知识图谱·neo4j
卖报的大地主1 小时前
TPAMI 2026 | 判别和扩散生成学习融合的礼物:边界细化遥感语义分割
人工智能·笔记·学习
汀、人工智能1 小时前
Claude Code 4.7 真正该升级的不是模型,而是你的工作流
人工智能
天辛大师2 小时前
山东居士林:天辛大师用AI+预测城市田园农场运营调配
大数据·人工智能·随机森林·机器人·启发式算法
Yolanda942 小时前
【人工智能】AI问答助手项目
人工智能·python
Java小白笔记2 小时前
什么是 Token?2026 年主流大模型计费规则、价格与性能全面对比
人工智能·ai·ai编程·ai写作
盘古信息IMS2 小时前
注塑工厂上MES系统,如何选对厂商实现数智化跃迁?
大数据·人工智能·物联网