论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
后端小张3 分钟前
【TextIn大模型加速器 + 火山引擎】TextIn大模型加速器与火山引擎协同构建智能文档处理新范式
人工智能·学习·数据挖掘·langchain·tensorflow·gpt-3·火山引擎
540_5403 分钟前
ADVANCE Day31
人工智能·python·机器学习
沫儿笙4 分钟前
发那科机器人气保焊二元混合气节气
人工智能·机器人
玖日大大12 分钟前
RAG技术深度解析与实践:让LLM拥有实时知识库
人工智能·aigc
程序员老赵16 分钟前
ComfyUI Docker 镜像部署指南
人工智能·docker·aigc
用户51914958484524 分钟前
Next.js CVE-2025-29927漏洞自动化扫描器
人工智能·aigc
mys551824 分钟前
杨建允:AI搜索优化对本地生活、本地服务行业的影响
人工智能·ai搜索优化·ai引擎优化
code tsunami27 分钟前
如何将 Helium 与 CapSolver 集成,实现无缝 CAPTCHA 自动化解决
运维·数据库·人工智能·爬虫·python·自动化
AI科技星28 分钟前
空间螺旋电磁耦合常数 Z‘:拨开迷雾,让电磁力变得直观易懂
服务器·人工智能·科技·算法·生活
玄同76529 分钟前
Python 异常捕获与处理:从基础语法到工程化实践的万字深度指南
开发语言·人工智能·python·自然语言处理·正则表达式·nlp·知识图谱