xLSTM 阅读笔记

xLSTM

论文发表日期:2024. 05. 07

论文地址:https://arxiv.org/pdf/2405.04517

xLSTM结构可视化

我们可以从第一部分看出来:

RNN 循环神经网络,希望记住所有的信息,也会导致更多信息的丢失(遗忘)

LSTM:设计一个记忆细胞,选择性的遗忘,也是选择性的记忆保 留

LSTM是一个记忆单元,这里看看

或者看一下线少一点的版本。

摘要

在20世纪90年代,the constant error carousel 和 gating 被引入,作为长短期记忆(LSTM)的中心思想。从那时起,lstm经受住了时间的考验,并为许多深度学习的成功做出了贡献,特别是它们构成了第一个大型语言模型(llm)。然而,以可并行化的自注意力为核心的Transformer技术的出现,标志着一个新时代的黎明,在规模上超过了lstm。现在我们提出了一个简单的问题:当将lstm扩展到数十亿参数,利用现代llm的最新技术,但减轻lstm的已知限制时,我们在语言建模方面能够走多远?首先,我们引入了适当的指数门化和稳定技术。其次,我们对LSTM内存结构进行了修改,得到: (i) 具有标量内存、标量更新和新内存混合的sLSTM,(ii)完全可并行使用矩阵内存和协方差更新规则的mLSTM。这些LSTM扩展集成到残余块主干中,将生成xLSTM块,然后将这些块剩余地堆叠到xLSTM架构中。与最先进的transformer和状态空间模型相比,xLSTM的性能和扩展方面都表现良好。

相关推荐
William Dawson8 小时前
2026软考中级系统集成项目管理工程师备考笔记
笔记·系统集成项目管理工程师
love530love11 小时前
精简版|Claude-HUD 插件介绍 + 一键安装教程
人工智能·windows·笔记
想成为优秀工程师的爸爸12 小时前
第三十篇技术笔记:郭大侠学UDS - 人有生老三千疾,望闻问切良方医
网络·笔记·网络协议·tcp/ip·信息与通信
tq108613 小时前
数学:约束表征空间的最小闭包
笔记
freexyn15 小时前
Matlab自学笔记七十六:表达式的展开、因式分解、化简、合并同类项
笔记·算法·matlab
IT摆渡者17 小时前
linux 系统安全检查
运维·网络·经验分享·笔记
十安_数学好题速析18 小时前
【多选】曲线方程:四步避坑判断曲线类型
笔记·学习·高考
chase。20 小时前
【学习笔记】skrl: 模块化、灵活的强化学习库深度解析
笔记·学习
其实防守也摸鱼20 小时前
CSDN博客写什么?从0到1打造你的技术影响力
笔记·测试用例·博客·教程·ai写作·ai辅助·高质量
EQ-雪梨蛋花汤21 小时前
【Unity笔记】Unity 音游模板与免费资源:高效构建节奏游戏开发全指南
笔记·unity·游戏引擎