论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
永霖光电_UVLED10 分钟前
英特尔斥资142亿美元回购爱尔兰Fab 34晶圆厂股权
人工智能
共绩算力41 分钟前
算力租赁革命:租4090、租5090如何让AI开发成本降低90%?——共绩算力深度解析
人工智能·共绩算力
信创DevOps先锋41 分钟前
模力方舟Moark:驶向AI开发新纪元的“能力方舟”
人工智能
码农小白AI1 小时前
AI报告编审解决方案赋能制造检测:IA-Lab AI检测报告生成助手协同IACheck,实现机械制造检测报告高效生成与严苛质量把控
人工智能·制造
NOCSAH1 小时前
统好AI SRM模块:智能采购管理实战解析
大数据·人工智能·统好ai·数智一体化平台
双星系统1 小时前
[特殊字符] 天工联智工业双臂机器人:重新定义智能制造的“双手“时代
人工智能·机器人·制造
liu****1 小时前
LangChain-AI应用开发框架(六)
人工智能·python·langchain·大模型应用·本地部署大模型
摸鱼仙人~1 小时前
AI检索——基础 RAG vs. 检索 Agent对比
人工智能
witAI2 小时前
**AI仿真人剧制作2025推荐,专业团队与创新技术引领未来**
人工智能·python
Deepoch2 小时前
Deepoc具身模型开发板:无人机集群去中心化协同的VLA中枢
人工智能·无人机·具身模型·deepoc