(arxiv2411) CARE Transformer

作者提出了两个问题,问题 1:堆叠是充分利用局部归纳偏差和长距离信息优势的最佳方法吗?

问题 2:是否有可能同时提高线性视觉 Transformer 的效率和准确性?

为了解决这两个问题,作者提出了一种 deCoupled duAl-interactive lineaR attEntion(CARE)。对于问题 1,asymmetrical decoupling strategy可以充分释放线性注意力的潜力。如图 2(b)所示,通过在通道维度上对特征进行解耦,输入无需经过所有的卷积和线性注意力操作。对于问题2,为了充分利用特征的互补性,首先设计了一个动态记忆单元保留关键信息。然后,引入了一个dual interaction module,有效地促进局部偏差和长距离依赖之间以及不同层特征之间的交互。非对称解耦策略节省了学习局部归纳偏差和全局信息的计算成本,而跨特征交互可以灵活有效地利用所学特征中的信息。

模型的总体框架如下图所示,分为四个阶段,每个阶段里有若干 CARE block堆叠。在 CARE block里,首先进行特征的 asymmetrical decoupling,即将输入特征从通道维度分为两部分,一部分进行线性注意力计算,另一部分进行卷积运算。然后特征输入到 dual interaction module 处理,细节如下图所示。在第二次 interaction 里,引入了Z,也就是动态记忆单元。

这个工作在前面重点介绍了"Demystify Mamba in Vision: A Linear Attention Perspective"中提出的MILA,说在该工作中 Linear attention 和 卷积 被堆叠。因此,作者想法是将二两进行不对称解耦。我比较好奇用于 linear attention 和 卷积 两部分的特征比例是如何设置的,也许是我看不够仔细,论文里貌似没有介绍。

相关推荐
GISer_Jing3 小时前
AI自动化工作流:智能驱动未来(升级研究生项目!!!)
人工智能·前端框架·自动化
草捏子3 小时前
Agent Skills:让 AI 一次学会、永远记住的能力扩展方案
人工智能
NocoBase4 小时前
【2.0 教程】第 1 章:认识 NocoBase ,5 分钟跑起来
数据库·人工智能·开源·github·无代码
后端小肥肠4 小时前
OpenClaw实战|从识图到公众号内容自动化,我跑通了完整链路
人工智能·aigc·agent
Elastic 中国社区官方博客4 小时前
快速 vs. 准确:衡量量化向量搜索的召回率
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
qq_381338504 小时前
【技术日报】2026-03-18 AI 领域重磅速递
大数据·人工智能
NocoBase4 小时前
开源项目管理工具选型指南(2026年最新)
人工智能·开源·无代码
feasibility.4 小时前
AI 爬虫高手养成:Openclaw+Scrapling 手动部署 + 采集策略(以Walmart 电商平台为例)
人工智能·爬虫·科技·机器人·agi·openclaw·scrapling
程序员老猫4 小时前
前端菜鸡狂喜!DeepSeek+Gemini,嘴炮出完整博客方案
人工智能
AI周红伟5 小时前
周红伟:《OpenClaw安全防控:OpenClaw++Skills智能体安全部署、实操和企业应用实操》
人工智能·阿里云·云计算·腾讯云·openclaw