论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
千殇华来2 分钟前
音频定义/声道/音频格式-Ambisonics声音
人工智能·语音识别
百***78753 分钟前
【技术教程】3步极速接入GPT-5.1:零门槛体验多模态AI能力
android·java·人工智能·gpt·opencv
音视频牛哥9 分钟前
【深度扫盲】音视频开发:拆解黑盒,从入门到精通的成长之路
人工智能·机器学习·计算机视觉·音视频·大牛直播sdk·超低延迟rtsp播放器·超低延迟rtmp播放器
默 语9 分钟前
IPIDEA 代理技术在海外品牌社媒数据采集中的实操落地(Instagram 营销分析案例版)
java·人工智能·ai·ai编程
rockingdingo10 分钟前
0-1教程 ChatGPT Apps Store应用提交教程——和MCP开发部署
人工智能·chatgpt·chatgpt-app
福客AI智能客服11 分钟前
智能客服机器人:家居建材电商的场景化服务核心
大数据·人工智能·机器人
badfl12 分钟前
OpenAI官方发布gpt-image-1.5有哪些亮点?
人工智能·ai·ai作画
焦耳加热13 分钟前
武汉大学JEC突破:焦耳闪烧<10秒“炼成”高熵合金,锌空电池循环千小时性能如新!
人工智能·科技·能源·制造·材料工程
_Li.17 分钟前
机器学习-非线性分类器 ANN
人工智能·机器学习
薛定e的猫咪19 分钟前
覆盖文献到写作全流程!GPT-Academic 多模型学术助手安装与使用指南
人工智能·gpt·github