论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
用户2235862182013 小时前
MCP 是 Claude 的 什么? - claude-10
人工智能·claude·vibecoding
MediaTea14 小时前
Scikit-learn:从数据到结构——无监督学习的最小闭环
人工智能·学习·算法·机器学习·scikit-learn
nap-joker14 小时前
阿尔茨海默病分期早期检测的多模式深度学习模型
人工智能·深度学习·adni
郑寿昌14 小时前
1.6T光模块将成AI数据中心主流
人工智能
赵药师14 小时前
Cityscape数据集转YOLO
人工智能·深度学习·yolo
aneasystone本尊14 小时前
让外部世界唤醒小龙虾:Webhook 与 Standing Orders
人工智能
Hector_zh14 小时前
JiuwenClaw 持久化存储落地:从方案到生产的实践验证
人工智能·ai编程
天天代码码天天14 小时前
C# 结合 llama.cpp 实现 PaddleOCR-VL-1.5:本地 OCR 客户端开发全攻略
人工智能
o_insist14 小时前
多层感知机判断氨基酸亲疏水性(PyTorch版)
人工智能·深度学习·机器学习
AICAT15 小时前
让主题模型“心领神会”:GCTM-OT如何用目标提示与最优传输终结跑偏话题
人工智能