xLSTM 阅读笔记

sigmoidAndRELU2024-12-09 8:01

xLSTM

论文发表日期：2024. 05. 07

论文地址：https://arxiv.org/pdf/2405.04517

xLSTM结构可视化

我们可以从第一部分看出来：

RNN 循环神经网络，希望记住所有的信息，也会导致更多信息的丢失（遗忘）

LSTM：设计一个记忆细胞，选择性的遗忘，也是选择性的记忆保留

LSTM是一个记忆单元，这里看看

或者看一下线少一点的版本。

摘要

在20世纪90年代，the constant error carousel 和 gating 被引入，作为长短期记忆（LSTM）的中心思想。从那时起，lstm经受住了时间的考验，并为许多深度学习的成功做出了贡献，特别是它们构成了第一个大型语言模型（llm）。然而，以可并行化的自注意力为核心的Transformer技术的出现，标志着一个新时代的黎明，在规模上超过了lstm。现在我们提出了一个简单的问题：当将lstm扩展到数十亿参数，利用现代llm的最新技术，但减轻lstm的已知限制时，我们在语言建模方面能够走多远？首先，我们引入了适当的指数门化和稳定技术。其次，我们对LSTM内存结构进行了修改，得到： (i) 具有标量内存、标量更新和新内存混合的sLSTM，（ii）完全可并行使用矩阵内存和协方差更新规则的mLSTM。这些LSTM扩展集成到残余块主干中，将生成xLSTM块，然后将这些块剩余地堆叠到xLSTM架构中。与最先进的transformer和状态空间模型相比，xLSTM的性能和扩展方面都表现良好。