LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

  • Arxiv日期:2024.2.14
  • 机构:Google DeepMind / University of Toronto

关键词

  • 长度泛化
  • 位置编码
  • 数据格式

核心结论

  1. 实验结论:十进制加法任务上的长度泛化最佳组合:
  • FIRE位置编码

  • 随机化位置编码

  • 反向数据格式

  • 索引提示(index hints,辅助定位)

  1. 在适当的配置下,Transformer模型可以泛化到训练序列长度的2.5倍(例如从40位加法训练成功泛化到100位加法)

  2. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序,导致不同试验之间的性能差异显著

  3. 增大模型规模对长度泛化的提升有限,且有时可能导致性能下降

主要方法

主要探讨Transformer模型在长度泛化(length generalization)上的表现,特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码(position encoding)和数据格式 ,证明了Transformer在长度泛化上的潜力,但同时指出了其鲁棒性较差的问题。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
QT 小鲜肉3 小时前
【孙子兵法之上篇】001. 孙子兵法·计篇
笔记·读书·孙子兵法
H***99763 小时前
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
人工智能·深度学习·机器学习
DuHz3 小时前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(上)
论文阅读·信号处理
DuHz4 小时前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(下)
论文阅读·汽车·信息与通信·信号处理
星轨初途4 小时前
数据结构排序算法详解(5)——非比较函数:计数排序(鸽巢原理)及排序算法复杂度和稳定性分析
c语言·开发语言·数据结构·经验分享·笔记·算法·排序算法
QT 小鲜肉4 小时前
【孙子兵法之上篇】001. 孙子兵法·计篇深度解析与现代应用
笔记·读书·孙子兵法
FL16238631295 小时前
无人机视角航拍河道漂浮物垃圾识别分割数据集labelme格式256张1类别
深度学习
撸码猿6 小时前
《Python AI入门》第9章 让机器读懂文字——NLP基础与情感分析实战
人工智能·python·自然语言处理
love530love7 小时前
【笔记】ComfUI RIFEInterpolation 节点缺失问题(cupy CUDA 安装)解决方案
人工智能·windows·笔记·python·插件·comfyui
愚戏师7 小时前
MySQL 数据导出
数据库·笔记·mysql