(arxiv2411) CARE Transformer

作者提出了两个问题,问题 1:堆叠是充分利用局部归纳偏差和长距离信息优势的最佳方法吗?

问题 2:是否有可能同时提高线性视觉 Transformer 的效率和准确性?

为了解决这两个问题,作者提出了一种 deCoupled duAl-interactive lineaR attEntion(CARE)。对于问题 1,asymmetrical decoupling strategy可以充分释放线性注意力的潜力。如图 2(b)所示,通过在通道维度上对特征进行解耦,输入无需经过所有的卷积和线性注意力操作。对于问题2,为了充分利用特征的互补性,首先设计了一个动态记忆单元保留关键信息。然后,引入了一个dual interaction module,有效地促进局部偏差和长距离依赖之间以及不同层特征之间的交互。非对称解耦策略节省了学习局部归纳偏差和全局信息的计算成本,而跨特征交互可以灵活有效地利用所学特征中的信息。

模型的总体框架如下图所示,分为四个阶段,每个阶段里有若干 CARE block堆叠。在 CARE block里,首先进行特征的 asymmetrical decoupling,即将输入特征从通道维度分为两部分,一部分进行线性注意力计算,另一部分进行卷积运算。然后特征输入到 dual interaction module 处理,细节如下图所示。在第二次 interaction 里,引入了Z,也就是动态记忆单元。

这个工作在前面重点介绍了"Demystify Mamba in Vision: A Linear Attention Perspective"中提出的MILA,说在该工作中 Linear attention 和 卷积 被堆叠。因此,作者想法是将二两进行不对称解耦。我比较好奇用于 linear attention 和 卷积 两部分的特征比例是如何设置的,也许是我看不够仔细,论文里貌似没有介绍。

相关推荐
tap.AI7 小时前
图片转文字技术(二)AI翻译的核心技术解析-从神经网络到多模态融合
人工智能·深度学习·神经网络
东坡肘子7 小时前
周日小插曲 -- 肘子的 Swift 周报 #115
人工智能·swiftui·swift
jifengzhiling7 小时前
卡尔曼增益:动态权重,最优估计
人工智能·算法·机器学习
emfuture7 小时前
传统劳动密集型加工厂,面对日益普及的自动化技术,应如何实现转型升级?
大数据·人工智能·智能制造·工业互联网
Zzz 小生7 小时前
Github-Lobe Chat:下一代开源AI聊天框架,重新定义人机交互体验
人工智能·开源·github·人机交互
说私域7 小时前
新零售第一阶段传统零售商的困境突破与二次增长路径——基于定制开发AI智能名片S2B2C商城小程序的实践研究
人工智能·小程序·零售
Cathyqiii7 小时前
序列建模模型原理及演进——从RNN、Transformer到SSM与Mamba
人工智能·rnn·深度学习·transformer
极客BIM工作室7 小时前
大模型的发展历程: 从文本到音视频生成的技术演进
人工智能·机器学习
ekprada7 小时前
Day 40 深度学习训练与测试的规范写法
人工智能·python
音视频牛哥7 小时前
C#实战:如何开发设计毫秒级延迟、工业级稳定的Windows平台RTSP/RTMP播放器
人工智能·机器学习·机器人·c#·音视频·rtsp播放器·rtmp播放器