论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
奇树谦几秒前
2025 嵌入式 AI IDE 全面对比:Trae、Copilot、Windsurf、Cursor 谁最值得个人开发者入手?
ide·人工智能·copilot
深度学习实战训练营6 分钟前
U-Net++:嵌套密集跳跃连接,多尺度融合增强特征表达,医学影像分割的unet创新-k学长深度学习专栏
人工智能·深度学习
Coding茶水间19 分钟前
基于深度学习的反光衣检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
得贤招聘官24 分钟前
AI 重塑人力资源:HR 职能的进化与实践
人工智能
_codemonster1 小时前
AI大模型入门到实战系列(八)文本聚类
人工智能·数据挖掘·聚类
AI码上来1 小时前
眼神交流+触摸感应,打造更贴心的小智AI:原理和实现
人工智能
露临霜1 小时前
重启机器学习
人工智能·机器学习
IT·小灰灰1 小时前
告别“翻墙“烦恼:DMXAPI让Gemini-3-pro-thinking调用快如闪电
网络·人工智能·python·深度学习·云计算
gwd2001 小时前
如何快速设置 Docker 代理设置
运维·人工智能·docker·容器
DatGuy1 小时前
Week 29: 深度学习补遗:MoE的稳定性机制与路由策略实现
人工智能·深度学习