LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

  • Arxiv日期:2024.2.14
  • 机构:Google DeepMind / University of Toronto

关键词

  • 长度泛化
  • 位置编码
  • 数据格式

核心结论

  1. 实验结论:十进制加法任务上的长度泛化最佳组合:
  • FIRE位置编码

  • 随机化位置编码

  • 反向数据格式

  • 索引提示(index hints,辅助定位)

  1. 在适当的配置下,Transformer模型可以泛化到训练序列长度的2.5倍(例如从40位加法训练成功泛化到100位加法)

  2. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序,导致不同试验之间的性能差异显著

  3. 增大模型规模对长度泛化的提升有限,且有时可能导致性能下降

主要方法

主要探讨Transformer模型在长度泛化(length generalization)上的表现,特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码(position encoding)和数据格式 ,证明了Transformer在长度泛化上的潜力,但同时指出了其鲁棒性较差的问题。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
Uzuki2 小时前
AI可解释性 II | Saliency Maps-based 归因方法(Attribution)论文导读(持续更新)
深度学习·机器学习·可解释性
zhuyixiangyyds5 小时前
day21和day22学习Pandas库
笔记·学习·pandas
jingjingjing11116 小时前
笔记:docker安装(ubuntu 20.04)
笔记·docker·容器
DreamBoy@6 小时前
【408--考研复习笔记】操作系统----知识点速览
笔记
UpUpUp……7 小时前
特殊类的设计/单例模式
开发语言·c++·笔记·单例模式
snowfoootball7 小时前
基于 Ollama DeepSeek、Dify RAG 和 Fay 框架的高考咨询 AI 交互系统项目方案
前端·人工智能·后端·python·深度学习·高考
odoo中国7 小时前
深度学习 Deep Learning 第15章 表示学习
人工智能·深度学习·学习·表示学习
电星托马斯8 小时前
C++中顺序容器vector、list和deque的使用方法
linux·c语言·c++·windows·笔记·学习·程序人生
橙色小博8 小时前
长短期记忆神经网络(LSTM)基础学习与实例:预测序列的未来
人工智能·python·深度学习·神经网络·lstm
jingjingjing11118 小时前
笔记:代码随想录算法训练营day64:拓扑排序精讲、dijkstra(朴素版)精讲
笔记