论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
nap-joker1 分钟前
【跨尺度】跨尺度多实例学习用于病理图像诊断
人工智能·学习·注意力机制·跨尺度·病理学切片
love530love2 分钟前
Windows 本地部署 IDM-VTON 虚拟试衣:排障版教程
人工智能·windows·python·virtual try-on
标准通.7 分钟前
直播回顾 | 标准编写系列课第四讲:试验方法标准编制规范——GB/T 2001.4-2015解读
人工智能·ai·标准·标准化·科技成果转化
WWZZ20258 分钟前
Sim2Sim理论与实践1:坐标系与位姿变换
人工智能·算法·机器人·大模型·具身智能·isaac sim
补三补四11 分钟前
语言模型基础:从统计方法到Transformer的技术演进
人工智能·语言模型·transformer
feibaoqq12 分钟前
OpenClaw 三种使用方式全对比:网页端 / 接入飞书 / 接入钉钉 优缺点与选型指南
人工智能·学习·ai
ctrigger12 分钟前
水利部直属6大水利设计院简介
大数据·人工智能
一次旅行13 分钟前
今日科技简报
人工智能·量子计算
weixin_4235946416 分钟前
Buddy - AI 浏览器智能体:用自然语言自动化完成多步骤任务
运维·人工智能·自动化
fuquxiaoguang17 分钟前
从软件到硬件:Taalas ASIC如何让AI成为“物理基础设施”
人工智能·taalas·模型刻进芯片