论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
arbboter7 分钟前
【AI插件开发】Notepad++ AI插件开发1.0发布和使用说明
人工智能·大模型·notepad++·ai助手·ai插件·aicoder·notepad++插件开发
IT_Octopus20 分钟前
AI工程pytorch小白TorchServe部署模型服务
人工智能·pytorch·python
果冻人工智能24 分钟前
AI军备竞赛:我们是不是正在造一个无法控制的神?
人工智能
暴龙胡乱写博客30 分钟前
OpenCV---图像预处理(四)
人工智能·opencv·计算机视觉
程序员辣条37 分钟前
深度测评 RAG 应用评估框架:指标最全面的 RAGas
人工智能·程序员
curdcv_po38 分钟前
字节跳动Trae:一款革命性的免费AI编程工具完全评测
人工智能·trae
程序员辣条39 分钟前
为什么需要提示词工程?什么是提示词工程(prompt engineering)?为什么需要提示词工程?收藏我这一篇就够了!
人工智能·程序员·产品经理
孔令飞43 分钟前
Go:终于有了处理未定义字段的实用方案
人工智能·云原生·go
清流君1 小时前
【MySQL】数据库 Navicat 可视化工具与 MySQL 命令行基本操作
数据库·人工智能·笔记·mysql·ue5·数字孪生
Blossom.1181 小时前
人工智能在智能家居中的应用与发展
人工智能·深度学习·机器学习·智能家居·vr·虚拟现实·多模态融合