高光谱分类论文解读分享之基于多模态融合Transformer的遥感图像分类方法

IEEE TGRS 2023:基于多模态融合Transformer的遥感图像分类方法

题目

Multimodal Fusion Transformer for Remote Sensing Image Classification

作者

Swalpa Kumar Roy , Student Member, IEEE, Ankur Deria , Danfeng Hong , Senior Member, IEEE,

Behnood Rasti , Senior Member, IEEE, Antonio Plaza , Fellow, IEEE, and Jocelyn Chanussot ,Fellow, IEEE

关键词

Convolutional neural networks (CNNs), multihead cross-patch attention (mCrossPA), remote sensing (RS), vision transformer (ViT).

研究动机

在原始的ViT模型中,如果我们将HIS作为输入,由于HIS巨大的光谱波段数量,可能会导致过拟合;并且对于其他模态的融合,如果采用拼接的方式去实现信息互补,会加剧这种问题。

模型

与卷积神经网络相比,ViT在图像分类任务中具有良好的性能。因此,许多研究人员尝试将ViT应用到高光谱图像分类任务中。为了获得满意的性能,接近于CNN,变换需要更少的参数。VITS和其他类似的变换使用外部分类(CLS)标记,该标记是随机初始化的,通常不能很好地推广,而其他多模式数据集的来源,如光检测和测距(LiDAR),提供了通过CLS来改进这些模型的潜力。提出了一种新的多模式融合变换(MFT)网络,该网络包括用于HSI土地覆盖分类的多头交叉斑块注意力(MCrossPA)。我们的mCrosspA利用了除了变换编码器中的HSI之外的其他补充信息源来实现更好的泛化。使用标记化的概念来生成CLS和HSI斑块标记,帮助在精简和分层的特征空间中学习独特的表示。在广泛使用的基准数据集上进行了大量的实验,例如休斯顿大学(UH),特伦托大学(Trento),南密西西比湾公园大学(MUUFL),和Augsburg。我们将提出的MFT模型的结果与其他最先进的变压器、经典的CNN和传统的分类器模型进行了比较。该模型的卓越性能归功于mCrosSPA的使用。

亮点

提出了一种新型的多模融合transformer网络(MFT),其中包含multihead cross patch attention(mCrossPA)机制,将补充信息作为cls token,将HSI作为patch token。

论文以及代码

论文链接: link

代码链接: link

相关推荐
草莓熊Lotso11 分钟前
Linux 文件描述符与重定向实战:从原理到 minishell 实现
android·linux·运维·服务器·数据库·c++·人工智能
Coder_Boy_1 小时前
技术发展的核心规律是「加法打底,减法优化,重构平衡」
人工智能·spring boot·spring·重构
会飞的老朱3 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º5 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee7 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º7 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys8 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56788 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子8 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能8 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算