LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

Zhouqi_Hua2025-02-21 15:07

Arxiv日期：2024.2.14

机构：Google DeepMind / University of Toronto

关键词

长度泛化
位置编码
数据格式

核心结论

实验结论：十进制加法任务上的长度泛化最佳组合：

FIRE位置编码
随机化位置编码
反向数据格式
索引提示（index hints，辅助定位）

在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加法）
长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序，导致不同试验之间的性能差异显著
增大模型规模对长度泛化的提升有限，且有时可能导致性能下降

主要方法

主要探讨Transformer模型在长度泛化（length generalization）上的表现，特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码（position encoding）和数据格式 ，证明了Transformer在长度泛化上的潜力，但同时指出了其鲁棒性较差的问题。

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文

上一篇：MobaXterm通过ssh远程连接Ubuntu的方法

下一篇：【系统架构设计师】需求工程

热门推荐

01conda中设置镜像地址（附所有可换的地址）02UV安装并设置国内源 03解决 WSL Ubuntu 中 /etc/resolv.conf 自动重置问题 04A股预测还能更准？开源大模型Kronos带你跑通预测+回测全流程 05UV 工具安装与国内镜像源配置指南 06教你如何认证 Gemini 教育优惠的二次验证，薅个 1年的 Gemini Pro 会员 07突破百度网盘的下载限速，两种方法教会你【超详细】08保姆级教程：手把手教你用Dify实现完美多轮对话（附Chatflow和提示词）09KGG转MP3工具|非KGM文件|解密音频 10Nano Banana免费方案来了！Docker 一键部署 + 魔搭即开即用，小白也能玩转 AI 图像编辑