【IJCAI2024】LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens

【IJCAI2024】LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation

论文:https://arxiv.org/abs/2405.09789

代码:https://github.com/ViTAE-Transformer/LeMeViT

由于相邻像素和图像块之间的高度相关性,以及遥感图像中纹理和模式的重复性质,存在大量的空间冗余。如下图所示,ViT 中的自注意力机制计算每两个图像块之间的相似性,相似的token对特征表示的贡献很小,但消耗了大量的计算负载,影响了模型性能。

为此,作者提出了下图所示的框架。本质上引入了一个可学习的 meta token(类似于原型或者记忆),不断的进行 image token 和 meta token 的信息交换。值得注意的是,网络的浅层使用的是cross-attention,深层使用的是自注意力(作者解释是自注意力的性能更高)。

作者在语义分割、目标检测等多个应用上做了大量实验,结果表明该方法具有较好的性能。有个有趣的消融实验是meta token 长度对性能的影响。长度为 64、32、16 和 8时,准确率几乎相同。这进一步证实了注意力计算的冗余,表明使用较少数量的 meta token 来表示密集图像 token 的动机。最后,考虑到效率和准确性,作者选择 16 作为 meta token 长度的默认设置。

作者还可视化了 dual cross attention最后一个块中,交叉注意映射结果。自然图像上的实验结果表明,学习到的 meta token 可以很好地关注图像中的目标,有助于提高分类精度。遥感图像上的实验结果则表明不同的 meta token 负责图像的不同语义部分。

相关推荐
阳光是sunny4 小时前
别再被 worktree 绕晕了!AI 编程时代你必须掌握的 Git 隔离神器
前端·人工智能·后端
冬奇Lab5 小时前
每日一个开源项目(第148篇):obsidian-skills - Obsidian CEO 亲写的 AI Agent 格式规范,让 Agent 不再破坏你的 Vault
人工智能·开源·资讯
ethantan5 小时前
AI Agent 组成:像人一样思考的智能体
人工智能·程序员·架构
冬奇Lab5 小时前
Workflow 系列(05):评测体系——三层测试结构与 Trace 追踪
人工智能·工作流引擎
ethantan6 小时前
一篇讲解AI Agent 组成:像人一样思考的智能体
人工智能·后端·程序员
Cosolar8 小时前
vLLM 生产级部署完全指南
人工智能·后端·架构
CodePlayer竟然被占用了8 小时前
被美国政府封杀18天,Claude Fable 5 回来了——但代价是什么?
人工智能
IT_陈寒8 小时前
垃圾回收器选错了,我的Java服务内存炸了
前端·人工智能·后端
smartpi9 小时前
SmartPi GPIO 脉冲与回复语执行时序指南
人工智能
阿里云大数据AI技术9 小时前
PAI支持一键部署GLM-5.2,Coding能力比肩Claude Opus 4.8
人工智能