论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
事变天下13 小时前
自动左心室应变评估 Auto Strain LV,让心肌应变检测不再需要心电图的“入场券”
人工智能
Fleshy数模13 小时前
解决OpenCV人脸检测报错:(-215:Assertion failed) !empty() 保姆级教程
人工智能·opencv·计算机视觉
l1t13 小时前
DeepSeek辅助编写的Oracle dmp转SQL脚本和CSV文件工具
数据库·人工智能·sql·oracle
小超同学你好13 小时前
Transformer 22. Gemma 1 架构详解:Decoder-only、GeGLU、RoPE 与每一步计算
人工智能·深度学习·transformer
算法即正义13 小时前
安全生产月知识竞赛活动方案:策划、实施与效果评估全流程指南
人工智能
行者无疆_ty13 小时前
如何在个人电脑部署大模型实现Token自由
人工智能·大模型·agent
装不满的克莱因瓶13 小时前
Cursor中agent、plan、ask三种模式区别于对比
人工智能·ai·大模型·ai编程·cursor
永霖光电_UVLED13 小时前
耐热抗损伤的高功率连续波激光组件让光学元件保持“冷”状态
人工智能
airuike12313 小时前
以微见著,精准护航:MEMS IMU助力高铁轨道智能检测
大数据·人工智能·科技
人工智能AI技术13 小时前
RAG退潮,「文件系统+grep」回归:智能体检索的返璞归真
人工智能