论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
眼镜哥(with glasses)1 分钟前
0215笔记-语言模型,提问范式与 Token
人工智能·笔记·语言模型
AIMarketing3 分钟前
2026年Q1光引GEO 2.0技术原理解析
人工智能
狮子座明仔31 分钟前
体验式强化学习:让模型学会“吃一堑长一智“
人工智能·深度学习·自然语言处理
冬奇Lab1 小时前
一天一个开源项目(第30篇):banana-slides - 基于 nano banana pro 的原生 AI PPT 生成应用
人工智能·开源·aigc
冬奇Lab1 小时前
Plugin 扩展实战:增强 Claude Code 的能力
人工智能·ai编程·claude
大好人ooo1 小时前
企业级LLM评估与测试
人工智能
coding者在努力1 小时前
LangChain简介,最直白的介绍
人工智能·python·语言模型·langchain
福大大架构师每日一题1 小时前
dify 1.13.0——Human-in-the-Loop与工作流执行架构全面升级,释放AI与人的协作潜力
人工智能·架构
文艺倾年2 小时前
【强化学习&SWE】如何无容器化进行强化学习训练
人工智能·分布式·大模型
ZhengEnCi2 小时前
06. Embedding模型与向量化
人工智能