【IJCAI2024】LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens

【IJCAI2024】LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation

论文:https://arxiv.org/abs/2405.09789

代码:https://github.com/ViTAE-Transformer/LeMeViT

由于相邻像素和图像块之间的高度相关性,以及遥感图像中纹理和模式的重复性质,存在大量的空间冗余。如下图所示,ViT 中的自注意力机制计算每两个图像块之间的相似性,相似的token对特征表示的贡献很小,但消耗了大量的计算负载,影响了模型性能。

为此,作者提出了下图所示的框架。本质上引入了一个可学习的 meta token(类似于原型或者记忆),不断的进行 image token 和 meta token 的信息交换。值得注意的是,网络的浅层使用的是cross-attention,深层使用的是自注意力(作者解释是自注意力的性能更高)。

作者在语义分割、目标检测等多个应用上做了大量实验,结果表明该方法具有较好的性能。有个有趣的消融实验是meta token 长度对性能的影响。长度为 64、32、16 和 8时,准确率几乎相同。这进一步证实了注意力计算的冗余,表明使用较少数量的 meta token 来表示密集图像 token 的动机。最后,考虑到效率和准确性,作者选择 16 作为 meta token 长度的默认设置。

作者还可视化了 dual cross attention最后一个块中,交叉注意映射结果。自然图像上的实验结果表明,学习到的 meta token 可以很好地关注图像中的目标,有助于提高分类精度。遥感图像上的实验结果则表明不同的 meta token 负责图像的不同语义部分。

相关推荐
小和尚同志2 分钟前
还有人在问 Skills 是啥?感觉和 prompt 一样
人工智能·aigc
星和月6 分钟前
人工智能与神经网络
人工智能
田里的水稻18 分钟前
ubuntu22.04_构建openclaw开发框架
运维·人工智能·python
Trisyp22 分钟前
Word2vec核心模型精讲:CBOW与Skip-gram
人工智能·自然语言处理·word2vec
liuccn23 分钟前
技能管理工具npx skills 跟openskills的关系以及区别
人工智能
新缸中之脑24 分钟前
AI Harness 工程的崛起
人工智能
大写-凌祁26 分钟前
[2026年03月15日] AI 深度早报
人工智能·深度学习·机器学习·计算机视觉·agi
Lw中29 分钟前
RAG如何科学调节切片长度与滑动窗口?
人工智能·大模型应用基础·rag检索
Σίσυφος190030 分钟前
对数极坐标相位相关 Log-Polar Phase Correlation
图像处理·人工智能·计算机视觉
Striver-Diligent35 分钟前
您的解决方案准确吗?一种用于增强通信网络可靠性的、面向故障的性能预测方法
网络·深度学习·机器学习·网络性能估计·数字孪生网络·网络预测