论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
TechubNews33 分钟前
稳定币下一战:不是谁发币,而是谁掌握结算通道
人工智能·web3·区块链
火山引擎开发者社区38 分钟前
钛投标基于火山引擎 ArkClaw 构建招投标垂直智能服务生态
人工智能
deephub1 小时前
Agent = Model + Harness:模型决定上限Harness 决定下限
人工智能·大语言模型·agent·harness
GalenZhang8881 小时前
Hermes Agent v0.14.0:AI Agent 基建时代正式到来
人工智能·hermes
俊哥V1 小时前
每日 AI 研究简报 · 2026-05-17
人工智能·ai
johnrui1 小时前
RAG系统“入口”和“出口”的进化
人工智能
cyyt1 小时前
深度学习周报(5.11~5.17)
人工智能·深度学习
鹏子训1 小时前
MemoryOS:开源时序知识图谱AI记忆系统
人工智能·知识图谱·记忆模块·ai记忆·memoryos·时序记忆
泰迪智能科技1 小时前
高校人工智能与大数据产品体系及解决方案介绍
大数据·人工智能