论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
olivesun8818 分钟前
AI的第一篇编码实践-如何用RAG和LLM
人工智能
龙山云仓22 分钟前
No153:AI中国故事-对话毕昇——活字印刷与AI知识生成:模块化思想与信息革
大数据·人工智能·机器学习
狒狒热知识31 分钟前
2026年软文营销发稿平台优选指南:聚焦178软文网解锁高效传播新路径
大数据·人工智能
十铭忘39 分钟前
个人思考3——世界动作模型
人工智能·深度学习·计算机视觉
rgb2gray41 分钟前
优多元分层地理探测器模型(OMGD)研究
人工智能·算法·机器学习·回归·gwr
大猫子的技术日记41 分钟前
2025 AI Agent 开发实战指南:从上下文工程到多智能体协作
前端·人工智能·bootstrap
Hoking43 分钟前
milvus向量数据库介绍与部署(docker-compose)
人工智能·milvus·向量数据库
PPIO派欧云1 小时前
PPIO 上线 MiniMax M2.5:体验架构师级编程与高效 Agent 能力
人工智能·ai·大模型
laplace01231 小时前
deque+yield+next语法
人工智能·笔记·python·agent·rag