论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
yun68539924 分钟前
ai相关技术了解之n8n简单练习及理解
人工智能·n8n
Python_Study202518 分钟前
工程材料企业如何通过智慧获客软件破解市场困局:方法论、架构与实践
大数据·网络·数据结构·人工智能·架构
紧固件研究社22 分钟前
紧固件制造设备基础知识大全
人工智能·制造·紧固件
DN202027 分钟前
AI销售机器人优质生产厂家
人工智能·机器人
南山乐只28 分钟前
Qwen Code + OpenSpec 实战指南:AI 驱动开发的从安装到落地
java·人工智能·后端
jonssonyan35 分钟前
我又发布新作品了,PetPhoto:一键生成 AI 宠物写真
人工智能·个人开发·宠物
AI科技星37 分钟前
从质能关系到时空几何:光速飞行理论的框架对比与逻辑验证
服务器·人工智能·线性代数·算法·矩阵
newsxun38 分钟前
科技为刃,破界解锁全生命周期营养新时代
大数据·人工智能·科技
WJSKad12351 小时前
基于改进YOLO11的超市商品与电子设备多类别目标检测方法C3k2-ConvAttn
人工智能·目标检测·计算机视觉
wangmengxxw1 小时前
SpringAi-mcp高德
人工智能·高德·springai·mcp