xLSTM 阅读笔记

xLSTM

论文发表日期:2024. 05. 07

论文地址:https://arxiv.org/pdf/2405.04517

xLSTM结构可视化

我们可以从第一部分看出来:

RNN 循环神经网络,希望记住所有的信息,也会导致更多信息的丢失(遗忘)

LSTM:设计一个记忆细胞,选择性的遗忘,也是选择性的记忆保 留

LSTM是一个记忆单元,这里看看

或者看一下线少一点的版本。

摘要

在20世纪90年代,the constant error carousel 和 gating 被引入,作为长短期记忆(LSTM)的中心思想。从那时起,lstm经受住了时间的考验,并为许多深度学习的成功做出了贡献,特别是它们构成了第一个大型语言模型(llm)。然而,以可并行化的自注意力为核心的Transformer技术的出现,标志着一个新时代的黎明,在规模上超过了lstm。现在我们提出了一个简单的问题:当将lstm扩展到数十亿参数,利用现代llm的最新技术,但减轻lstm的已知限制时,我们在语言建模方面能够走多远?首先,我们引入了适当的指数门化和稳定技术。其次,我们对LSTM内存结构进行了修改,得到: (i) 具有标量内存、标量更新和新内存混合的sLSTM,(ii)完全可并行使用矩阵内存和协方差更新规则的mLSTM。这些LSTM扩展集成到残余块主干中,将生成xLSTM块,然后将这些块剩余地堆叠到xLSTM架构中。与最先进的transformer和状态空间模型相比,xLSTM的性能和扩展方面都表现良好。

相关推荐
lingggggaaaa44 分钟前
小迪安全v2023学习笔记(八十二讲)—— Java组件安全&Solr&Shiro&Log4j&CVE复现
笔记·学习·安全
好望角雾眠1 小时前
第四阶段C#通讯开发-1:通讯基础理论,串口,通讯模式,单位转换,代码示例
开发语言·笔记·c#·串口·通讯
贝塔实验室2 小时前
两种常用的抗单粒子翻转动态刷新方法
论文阅读·经验分享·笔记·科技·学习·程序人生·fpga开发
范纹杉想快点毕业9 小时前
ZYNQ PS 端 UART 接收数据数据帧(初学者友好版)嵌入式编程 C语言 c++ 软件开发
c语言·笔记·stm32·单片机·嵌入式硬件·mcu·51单片机
茯苓gao11 小时前
STM32G4 电流环闭环
笔记·stm32·单片机·嵌入式硬件·学习
easy202012 小时前
机器学习的本质:从跑模型到真正解决问题
笔记·学习·机器学习
汇能感知12 小时前
摄像头模组在智能家居设备中的应用
经验分享·笔记·科技
shizidushu13 小时前
Graph RAG论文阅读笔记
论文阅读·笔记·graphrag
0_0梅伊阁诗人15 小时前
Django ORM 模型
开发语言·数据库·笔记·python·oracle·django
m0_5782678615 小时前
从零开始的python学习(九)P142+P143+P144+P145+P146
笔记·python·学习