论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
ECT-OS-JiuHuaShan11 分钟前
渡劫代谢,好事多磨
数据库·人工智能·科技·学习·算法·生活
阿瑞说项目管理17 分钟前
有监督 vs 全自主:两种 Agent 范式,你选对了吗?
人工智能·agent·智能体·企业级ai
乔江seven19 分钟前
【李沐 | 动手学深度学习】18 深度学习硬件:TPU和其他
人工智能·深度学习·深度学习硬件
爱写代码的小朋友20 分钟前
生成式 AI 对中小学学生学习行为的影响及教育引导策略研究
人工智能
LeeChen22 分钟前
Claude Code 零改动接入 DeepSeek V4
人工智能
愈努力俞幸运25 分钟前
本地部署模型,推理框架,量化,蒸馏
人工智能
耳边轻语99928 分钟前
2026 年 4 月最新大模型对比
人工智能
半兽先生35 分钟前
04阶段:深度学习
人工智能·深度学习
赖在沙发上的熊41 分钟前
机器学习——机器学习概述
人工智能·机器学习
Yu_Lijing43 分钟前
Python数据分析和数据处理库Pandas(透视表)
人工智能·数据挖掘·数据分析·pandas