LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

  • Arxiv日期:2024.2.14
  • 机构:Google DeepMind / University of Toronto

关键词

  • 长度泛化
  • 位置编码
  • 数据格式

核心结论

  1. 实验结论:十进制加法任务上的长度泛化最佳组合:
  • FIRE位置编码

  • 随机化位置编码

  • 反向数据格式

  • 索引提示(index hints,辅助定位)

  1. 在适当的配置下,Transformer模型可以泛化到训练序列长度的2.5倍(例如从40位加法训练成功泛化到100位加法)

  2. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序,导致不同试验之间的性能差异显著

  3. 增大模型规模对长度泛化的提升有限,且有时可能导致性能下降

主要方法

主要探讨Transformer模型在长度泛化(length generalization)上的表现,特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码(position encoding)和数据格式 ,证明了Transformer在长度泛化上的潜力,但同时指出了其鲁棒性较差的问题。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
imbackneverdie22 分钟前
AI工具如何重塑综述写作新体验
数据库·人工智能·考研·自然语言处理·aigc·论文·ai写作
雍凉明月夜28 分钟前
c++ 精学笔记记录Ⅲ
c++·笔记·学习
wxh_无香花自开37 分钟前
Linux 笔记:rpm命令
linux·运维·笔记·rpm
li星野39 分钟前
打工人日报#20251218
笔记
会挠头但不秃40 分钟前
深度学习(5)循环神经网络
人工智能·rnn·深度学习
阿蒙Amon43 分钟前
JavaScript学习笔记:17.闭包
javascript·笔记·学习
想不出名字ಥ_ಥ1 小时前
STM32学习笔记--01学会如何点亮一颗LED灯
笔记·stm32·学习
哥布林学者1 小时前
吴恩达深度学习课程四:计算机视觉 第二周:经典网络结构 课后习题和代码实践
深度学习·ai
摇滚侠1 小时前
Redis 零基础到进阶,Redis 主从复制,笔记55-62
数据库·redis·笔记
小明_GLC1 小时前
ITransformer: Inverted Transformers Are Effective for Time Series Forecasting
论文阅读