(arxiv2411) CARE Transformer

计算机科研狗@OUC2025-02-17 19:26

作者提出了两个问题，问题 1：堆叠是充分利用局部归纳偏差和长距离信息优势的最佳方法吗？

问题 2：是否有可能同时提高线性视觉 Transformer 的效率和准确性？

为了解决这两个问题，作者提出了一种 deCoupled duAl-interactive lineaR attEntion（CARE）。对于问题 1，asymmetrical decoupling strategy可以充分释放线性注意力的潜力。如图 2（b）所示，通过在通道维度上对特征进行解耦，输入无需经过所有的卷积和线性注意力操作。对于问题2，为了充分利用特征的互补性，首先设计了一个动态记忆单元保留关键信息。然后，引入了一个dual interaction module，有效地促进局部偏差和长距离依赖之间以及不同层特征之间的交互。非对称解耦策略节省了学习局部归纳偏差和全局信息的计算成本，而跨特征交互可以灵活有效地利用所学特征中的信息。

模型的总体框架如下图所示，分为四个阶段，每个阶段里有若干 CARE block堆叠。在 CARE block里，首先进行特征的 asymmetrical decoupling，即将输入特征从通道维度分为两部分，一部分进行线性注意力计算，另一部分进行卷积运算。然后特征输入到 dual interaction module 处理，细节如下图所示。在第二次 interaction 里，引入了Z，也就是动态记忆单元。

这个工作在前面重点介绍了"Demystify Mamba in Vision: A Linear Attention Perspective"中提出的MILA，说在该工作中 Linear attention 和卷积被堆叠。因此，作者想法是将二两进行不对称解耦。我比较好奇用于 linear attention 和卷积两部分的特征比例是如何设置的，也许是我看不够仔细，论文里貌似没有介绍。