论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
小锋学长生活大爆炸几秒前
【软件】AI Agent:无需电脑的手机自动化助手AutoGLM
运维·人工智能·智能手机·自动化·手机·agent·autoglm
ar01231 分钟前
AR巡检私有化本地化部署:企业数字化转型的关键一步
人工智能·ar
Hcoco_me4 分钟前
大模型面试题39:KV Cache 完全指南
人工智能·深度学习·自然语言处理·transformer·word2vec
小途软件4 分钟前
基于计算机视觉的课堂行为编码研究
人工智能·python·深度学习·计算机视觉·语言模型·自然语言处理·django
小途软件5 分钟前
基于计算机视觉的桥梁索力测试方法
人工智能·python·语言模型·自然语言处理·django
拓端研究室6 分钟前
2025医疗人工智能报告:AI应用、IVD市场、健康科技|附240+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能·物联网
咚咚王者6 分钟前
人工智能之核心基础 机器学习 第七章 监督学习总结
人工智能·学习·机器学习
2501_941507946 分钟前
【人工智能】基于YOLO11-C3k2-LFE模型的LED灯目标检测与识别系统研究
人工智能·目标检测·计算机视觉
不爱学英文的码字机器8 分钟前
用 openJiuwen 构建 AI Agent:从 Hello World 到毒舌编辑器
人工智能·redis·编辑器
数据光子8 分钟前
【YOLO数据集】水稻病害目标检测
人工智能·yolo·目标检测·计算机视觉