论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
whaosoft-14319 小时前
51c~目标检测~合集3
人工智能
掘金一周19 小时前
高德地图与Three.js结合实现3D大屏可视化 | 掘金一周 1.8
前端·人工智能·后端
北京耐用通信19 小时前
耐达讯自动化CAN转PROFIBUS网关让软启动器如何让包装线告别“信号迷宫”
人工智能·物联网·网络协议·自动化·信息与通信
ZhuNian的学习乐园19 小时前
LLM知识检索增强:RAG_系统化解析与工程实践
人工智能·算法
paopao_wu19 小时前
LangChainV1.0[05]-记忆管理
人工智能·python·langchain·ai编程
汤姆yu20 小时前
基于深度学习的暴力行为识别系统
人工智能·深度学习
技术宅学长20 小时前
关于CLS与mean_pooling的一些笔记
人工智能·pytorch·笔记·pycharm
七夜zippoe20 小时前
如何利用AI Coding提效?从工具到思维的全面升级
人工智能·知识库·ai coding·知识驱动·提效
进击切图仔20 小时前
Realsense 相机测试及说明
网络·人工智能·深度学习·数码相机
007不打工人20 小时前
STC-GS安装pip install submodules/diff-gaussian-rasterization-radar报错
人工智能·机器学习