论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

相关推荐
Alter12301 分钟前
不卷通用大模型,网易AI的“错位”生存法则
人工智能
hhzz5 分钟前
【Vision人工智能设计 】ComfyUI 基础图生图设计
人工智能·flux·comfyui·视觉大模型·lora模型
ViiTor_AI6 分钟前
AI 在线字幕去除工具:一键无损删除视频硬字幕与软字幕
人工智能·音视频
愚公搬代码7 分钟前
【愚公系列】《AI短视频创作一本通》027-AI 短视频创作的注意事项及未来展望(AI短视频的技术展望)
人工智能·音视频
szcsun58 分钟前
机器学习(六)--异常检测、主成分分析
人工智能·机器学习·概率论
王锋(oxwangfeng)12 分钟前
基于多模型融合的交通灯状态感知系统
人工智能·自动驾驶
康康的AI博客13 分钟前
AI模型压缩与优化:如何通过蒸馏提升模型的运行效率
大数据·人工智能
RoboWizard14 分钟前
内容创作者如何用金士顿存储搭建AI本地大模型主机
人工智能
中电金信15 分钟前
中电金信:2025年度精选技术文章汇总
人工智能
A洛16 分钟前
OpenAI Codex CLI 完整速查表:命令、配置、MCP 一网打尽
人工智能·chatgpt·codex·claude code