LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

  • Arxiv日期:2024.2.14
  • 机构:Google DeepMind / University of Toronto

关键词

  • 长度泛化
  • 位置编码
  • 数据格式

核心结论

  1. 实验结论:十进制加法任务上的长度泛化最佳组合:
  • FIRE位置编码

  • 随机化位置编码

  • 反向数据格式

  • 索引提示(index hints,辅助定位)

  1. 在适当的配置下,Transformer模型可以泛化到训练序列长度的2.5倍(例如从40位加法训练成功泛化到100位加法)

  2. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序,导致不同试验之间的性能差异显著

  3. 增大模型规模对长度泛化的提升有限,且有时可能导致性能下降

主要方法

主要探讨Transformer模型在长度泛化(length generalization)上的表现,特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码(position encoding)和数据格式 ,证明了Transformer在长度泛化上的潜力,但同时指出了其鲁棒性较差的问题。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
似水明俊德17 分钟前
02-C#.Net-反射-学习笔记
开发语言·笔记·学习·c#·.net
智者知已应修善业1 小时前
【51单片机独立按键控制数码管移动反向,2片74CH573/74CH273段和位,按键按下保持原状态】2023-3-25
经验分享·笔记·单片机·嵌入式硬件·算法·51单片机
C羊驼1 小时前
C语言:两天打鱼,三天晒网
c语言·经验分享·笔记·算法·青少年编程
sheeta19981 小时前
苍穹外卖Day04笔记
笔记
blackicexs2 小时前
第九周第四天
人工智能·深度学习·机器学习
WenGyyyL3 小时前
ColBERT论文研读——NLP(IR)里程碑之作
人工智能·python·语言模型·自然语言处理
zh路西法4 小时前
【宇树机器人强化学习】(六):TensorBoard图表与手柄遥控go2测试
python·深度学习·机器学习·机器人
咚咚王者4 小时前
人工智能之语言领域 自然语言处理 第十六章 生成式预训练模型
人工智能·自然语言处理
抓个马尾女孩5 小时前
位置编码:绝对位置编码、相对位置编码、旋转位置编码
人工智能·深度学习·算法·transformer
今儿敲了吗5 小时前
46| FBI树
数据结构·c++·笔记·学习·算法