论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
lisw051 分钟前
用于实时数据处理的边缘计算!
人工智能·机器学习·边缘计算
全栈开发圈2 分钟前
干货分享|R语言聚类分析2
人工智能·机器学习·r语言
Sakuraba Ema6 分钟前
从零理解 MoE(Mixture of Experts)混合专家:原理、数学、稀疏性、专家数量影响与手写 PyTorch 实现
人工智能·pytorch·python·深度学习·数学·llm·latex
shangjian00715 分钟前
AI-大语言模型-模型训练-数据集1-总述
人工智能·机器学习·语言模型
柯儿的天空18 分钟前
【OpenClaw 全面解析:从零到精通】第 006 篇:OpenClaw 在 Windows/WSL2 上的安装与部署实战
人工智能·windows·语言模型·chatgpt·ai作画
freewlt31 分钟前
科技热点速递:AI技术集中爆发
人工智能·深度学习·计算机视觉
驕傲的兎孒31 分钟前
基于 SpringBoot + Vue3 + AI 打造企业级售后服务支持平台 | 实战方案分享
人工智能·spring boot·后端
guoji778832 分钟前
2026年AI编程辅助实战:国内镜像站如何使用Claude提升开发效率?
人工智能·ai编程
程序猿炎义32 分钟前
Agent Skills入门 - Datawhale共学
人工智能
大傻^35 分钟前
Spring AI Alibaba 可观测性实践:AI应用监控与链路追踪
java·人工智能·后端·spring·springaialibaba