【南开大学-程明明组-AAAI26】一种用于多模态遥感目标检测的统一模型


文章:SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

代码:https://github.com/zcablii/SM3Det

单位:南开大学


一、问题背景:传统模型的"单一困境"

  1. 模态局限:过去的模型大多针对单一数据集训练,比如专门处理光学图像的模型,遇到雷达图像就"束手无策",无法利用不同模态间的共性知识。

  2. 任务单一:遥感场景中,目标可能是水平摆放的汽车,也可能是倾斜的桥梁,但传统模型只能固定输出一种格式的检测框,灵活性极差。

  3. 适配复杂:无人机、卫星等平台常搭载多种传感器,若为每种模态、每个任务都配一个模型,不仅维护成本高,还会浪费计算资源,难以满足低空经济、航空监测等实时性需求。

这些问题的核心在于:多模态数据的"差异鸿沟"和多任务学习的"优化矛盾",传统模型要么无法兼顾不同模态的独特性,要么在多任务训练中出现"有的学不好、有的学太满"的情况。

二、方法创新:SM3Det的"双核心设计"

为解决上述困境,研究团队提出了统一模型SM3Det,从架构和优化两方面给出创新方案,还配套了专用数据集:

1. 全新任务与数据集:M2Det+SOI-Det

  • 提出M2Det任务:要求一个模型能处理任意模态(雷达、光学、红外),同时支持水平框(HBB)和旋转框(OBB)两种检测任务。

  • 构建SOI-Det数据集:合并SARDet-100K(雷达)、DOTA(光学)、DroneVehicle(红外)三大数据集,覆盖6-15类目标,提供统一的训练基准。

2. 架构创新:网格级稀疏MoE backbone

  • 核心思路:给模型配"多个专业小专家",而非单一参数网络。

  • 具体设计:在模型骨干网络中嵌入网格级专家模块,每个专家专门处理一类局部特征(比如有的专看目标轮廓,有的专看背景纹理)。

  • 优势:通过动态路由,让每个局部网格特征都能匹配到最适合的专家,既学到不同模态的共性(比如"目标都有空间轮廓"),又保留每种模态的独特性(比如雷达图像的纹理特征),避免特征冲突。

3. 优化创新:动态子模块优化(DSO)

  • 核心思路:给不同任务、不同模态"量身定制学习节奏",避免优化不同步。

  • 具体设计:

    • 针对任务头:根据每个任务的训练损失动态调整学习率,难学的任务多分配资源,学得快的任务适当减速,平衡收敛速度。

    • 针对骨干网络:通过计算损失的历史一致性,判断训练稳定性,稳定时加速学习,不稳定时减速调整,保证优化方向不冲突。

三、实验结果:性能全面领先

在SOI-Det数据集上的测试显示,SM3Det的表现远超传统方法:

  1. 整体性能:综合检测精度(mAP)达到50.20,比单独训练的模型组合(48.23)提升1.97个百分点,也超过UniDet、DA网络等主流方法。

  2. 模态适配:在雷达数据集上mAP达60.64,光学数据集46.47,红外数据集48.87,均优于同类型模型。

  3. 灵活通用:适配ConvNext、VAN、LSKNet等多种骨干网络,兼容单阶段、两阶段等不同检测器,更换架构后仍能保持领先。

  4. 参数高效:轻量化版本(仅含DSO)仅66M参数,却比66M参数的传统联合训练模型性能高2.35个mAP,不用堆参数也能出效果。

四、优势与局限

核心优势

  1. 通用性强:一个模型搞定多模态、多任务,无需为每种场景单独开发,大幅降低工业应用成本。

  2. 效率更高:支持多模态数据批量处理,充分发挥GPU并行计算能力,提升边缘设备的计算和能源效率。

  3. 扩展性好:可灵活适配不同骨干网络和检测器,后续可轻松扩展到更多模态和任务。

现存局限

  1. 未涵盖多光谱影像这一重要遥感模态,主要受限于缺乏大规模多光谱目标检测数据集。

  2. 网格级专家的数量和激活策略仍需根据具体场景微调,暂无通用自适应方案。

五、一句话总结

SM3Det通过"网格级MoE架构+DSO优化",首次实现了遥感场景下"任意模态+任意检测任务"的统一处理,性能和通用性双领先,为低空经济、卫星观测等领域提供了更高效的目标检测解决方案。

相关推荐
码途漫谈9 分钟前
Easy-Vibe高级开发篇阅读笔记(二十一)——AI能力强化之RAG 与企业级智能客服
人工智能·笔记·ai·开源·ai编程
薛定猫AI11 分钟前
【深度解析】Hermes Agent:持久记忆、自学习闭环与桌面化 Autonomous AI 工作流实践
人工智能·学习
Resistance丶未来15 分钟前
Sub2API:订阅转API网关平台,魔芋AI接入指南
人工智能·gpt·大模型·claude·gemini·skill·sub2api
独隅24 分钟前
用 Anaconda 驯服 AI 开发流:从数据预处理到模型部署的全链路环境标准化实战指南
人工智能·neo4j
zhangfeng113331 分钟前
超算中心海光异构卡dcu bw 64G显卡报错 nccl通讯错误,无法通过设置来解决的办法,需要安装shca IB卡驱动
人工智能
m0_7372469833 分钟前
QDKT2-1. Dify 本地部署 & 模型插件配置
人工智能·产品经理
nix.gnehc34 分钟前
手搓 MCP 服务:从零实现 Model Context Protocol 的实践记录
人工智能·mcp·http+sse
动物园猫37 分钟前
火焰与烟雾目标检测数据集分享(适用于YOLO系列深度学习分类检测任务)
深度学习·yolo·目标检测
wuxinyan12340 分钟前
大模型学习之路010:RAG 零基础入门教程(第六篇):重排序技术
人工智能·学习·rag