xLSTM 阅读笔记

xLSTM

论文发表日期:2024. 05. 07

论文地址:https://arxiv.org/pdf/2405.04517

xLSTM结构可视化

我们可以从第一部分看出来:

RNN 循环神经网络,希望记住所有的信息,也会导致更多信息的丢失(遗忘)

LSTM:设计一个记忆细胞,选择性的遗忘,也是选择性的记忆保 留

LSTM是一个记忆单元,这里看看

或者看一下线少一点的版本。

摘要

在20世纪90年代,the constant error carousel 和 gating 被引入,作为长短期记忆(LSTM)的中心思想。从那时起,lstm经受住了时间的考验,并为许多深度学习的成功做出了贡献,特别是它们构成了第一个大型语言模型(llm)。然而,以可并行化的自注意力为核心的Transformer技术的出现,标志着一个新时代的黎明,在规模上超过了lstm。现在我们提出了一个简单的问题:当将lstm扩展到数十亿参数,利用现代llm的最新技术,但减轻lstm的已知限制时,我们在语言建模方面能够走多远?首先,我们引入了适当的指数门化和稳定技术。其次,我们对LSTM内存结构进行了修改,得到: (i) 具有标量内存、标量更新和新内存混合的sLSTM,(ii)完全可并行使用矩阵内存和协方差更新规则的mLSTM。这些LSTM扩展集成到残余块主干中,将生成xLSTM块,然后将这些块剩余地堆叠到xLSTM架构中。与最先进的transformer和状态空间模型相比,xLSTM的性能和扩展方面都表现良好。

相关推荐
茫忙然29 分钟前
【WEB】Polar靶场 6-10题 详细笔记
笔记
eric*168832 分钟前
尚硅谷张天禹老师课程配套笔记
前端·vue.js·笔记·vue·尚硅谷·张天禹·尚硅谷张天禹
Allen_LVyingbo1 小时前
数智读书笔记系列035《未来医疗:医疗4.0引领第四次医疗产业变革》
人工智能·经验分享·笔记·健康医疗
岑梓铭1 小时前
考研408《计算机组成原理》复习笔记,第三章(3)——多模块存储器
笔记·考研·408·计算机组成原理
菜菜why2 小时前
MSPM0G3507学习笔记(一) 重置版:适配逐飞库的ti板环境配置
笔记·学习·电赛·嵌入式软件·mspm0
c7692 小时前
【文献笔记】Automatic Chain of Thought Prompting in Large Language Models
人工智能·笔记·语言模型·论文笔记
X_StarX3 小时前
【Unity笔记01】基于单例模式的简单UI框架
笔记·ui·unity·单例模式·游戏引擎·游戏开发·大学生
智者知已应修善业5 小时前
【51单片机用数码管显示流水灯的种类是按钮控制数码管加一和流水灯】2022-6-14
c语言·经验分享·笔记·单片机·嵌入式硬件·51单片机
孞㐑¥8 小时前
Linux之Socket 编程 UDP
linux·服务器·c++·经验分享·笔记·网络协议·udp
sealaugh3211 小时前
aws(学习笔记第四十八课) appsync-graphql-dynamodb
笔记·学习·aws