论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
聆风吟º2 分钟前
openEuler 开源操作系统测试实战:搭建本地AI问答工具
人工智能·ai·开源·openeuler·ollama
低调小一7 分钟前
从聊天记录到单一 Prompt:搞懂 Messages、Chat Templates、Special Tokens
人工智能·prompt
伊克罗德信息科技13 分钟前
伊克罗德信息蝉联2025亚马逊云科技中国区年度创新合作伙伴奖,以AI深耕云端未来
人工智能·科技
媒体人88814 分钟前
GEO优化专家孟庆涛谈 GEO 优化:百度抖音谷歌协同抢答案主权
大数据·人工智能·搜索引擎·生成式引擎优化·geo优化
智元视界18 分钟前
智慧金融智能风控:AI算法如何服务小微企业
人工智能·金融·架构·云计算·数字化转型·产业升级
东南门吹雪19 分钟前
向量、张量、大语言模型、Embedding
人工智能·语言模型·embedding
桃子叔叔25 分钟前
Prompt Engineering 完全指南:从基础到高阶技术深度解析
大数据·人工智能·prompt
腾飞开源26 分钟前
14_Spring AI 干货笔记之 Azure OpenAI 对话模型
人工智能·向量存储·对话模型·工具调用·spring ai·azure openai·ai模型集成
晨同学032727 分钟前
【中文】CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
人工智能·多模态
后端小肥肠27 分钟前
Coze+ComfyUI 实战:一键生成爆款梦核物语视频,直通剪映草稿
人工智能·aigc·coze