(arxiv2411) CARE Transformer

作者提出了两个问题,问题 1:堆叠是充分利用局部归纳偏差和长距离信息优势的最佳方法吗?

问题 2:是否有可能同时提高线性视觉 Transformer 的效率和准确性?

为了解决这两个问题,作者提出了一种 deCoupled duAl-interactive lineaR attEntion(CARE)。对于问题 1,asymmetrical decoupling strategy可以充分释放线性注意力的潜力。如图 2(b)所示,通过在通道维度上对特征进行解耦,输入无需经过所有的卷积和线性注意力操作。对于问题2,为了充分利用特征的互补性,首先设计了一个动态记忆单元保留关键信息。然后,引入了一个dual interaction module,有效地促进局部偏差和长距离依赖之间以及不同层特征之间的交互。非对称解耦策略节省了学习局部归纳偏差和全局信息的计算成本,而跨特征交互可以灵活有效地利用所学特征中的信息。

模型的总体框架如下图所示,分为四个阶段,每个阶段里有若干 CARE block堆叠。在 CARE block里,首先进行特征的 asymmetrical decoupling,即将输入特征从通道维度分为两部分,一部分进行线性注意力计算,另一部分进行卷积运算。然后特征输入到 dual interaction module 处理,细节如下图所示。在第二次 interaction 里,引入了Z,也就是动态记忆单元。

这个工作在前面重点介绍了"Demystify Mamba in Vision: A Linear Attention Perspective"中提出的MILA,说在该工作中 Linear attention 和 卷积 被堆叠。因此,作者想法是将二两进行不对称解耦。我比较好奇用于 linear attention 和 卷积 两部分的特征比例是如何设置的,也许是我看不够仔细,论文里貌似没有介绍。

相关推荐
白熊188几秒前
【图像大模型】ExVideo-SVD-128f:面向长视频生成的时空扩散模型深度解析
人工智能·音视频·通用智能体·web search
科技小E3 分钟前
安防综合管理系统EasyCVR视频融合平台安防知识:门禁系统与视频监控系统如何联动?
网络·人工智能·音视频
金融RPA机器人丨实在智能10 分钟前
智能体应用如何重塑未来生活?全面解析技术场景与实在Agent突破
人工智能·生活·agent·智能体
AI糊涂是福20 分钟前
人工智能、机器学习与深度学习:概念解析与内在联系
人工智能·深度学习·机器学习
嘉图明31 分钟前
《AI革命重塑未来五年:医疗诊断精准度翻倍、自动驾驶事故锐减90%,全球科技版图加速变革》
人工智能·科技·自动驾驶
SAP工博科技39 分钟前
泰国SAP ERP实施如何应对挑战?工博科技赋能中企出海EEC战略
人工智能·科技
__Benco1 小时前
OpenHarmony外设驱动使用 (四),Face_auth
人工智能·驱动开发·计算机视觉·harmonyos
Oliverro1 小时前
WebRTC技术EasyRTC嵌入式音视频通信SDK助力智能电视搭建沉浸式实时音视频交互
人工智能·音视频
小袁拒绝摆烂1 小时前
OpenCV-去噪效果和评估指标方法
人工智能·opencv·计算机视觉
Douglassssssss1 小时前
【深度学习】残差网络(ResNet)
网络·人工智能·深度学习