LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly

  • Arxiv日期:2024.2.14
  • 机构:Google DeepMind / University of Toronto

关键词

  • 长度泛化
  • 位置编码
  • 数据格式

核心结论

  1. 实验结论:十进制加法任务上的长度泛化最佳组合:
  • FIRE位置编码

  • 随机化位置编码

  • 反向数据格式

  • 索引提示(index hints,辅助定位)

  1. 在适当的配置下,Transformer模型可以泛化到训练序列长度的2.5倍(例如从40位加法训练成功泛化到100位加法)

  2. 长度泛化的表现高度依赖于随机权重初始化和训练数据的顺序,导致不同试验之间的性能差异显著

  3. 增大模型规模对长度泛化的提升有限,且有时可能导致性能下降

主要方法

主要探讨Transformer模型在长度泛化(length generalization)上的表现,特别是在整数加法任务中的应用。

长度泛化指的是模型从训练中的短序列泛化到测试中的更长序列的能力。

研究通过调整位置编码(position encoding)和数据格式 ,证明了Transformer在长度泛化上的潜力,但同时指出了其鲁棒性较差的问题。

注:本系列不包括基础的知识点讲解,为笔记/大纲性质而非教程,用于论文知识点和思想和快速记忆和回顾,更多细节建议阅读论文原文

相关推荐
四月天431 小时前
web安全-SSTI(服务器模板注入)
笔记·学习·web安全·网络安全
Token炼金师2 小时前
算力显存通信的三角博弈:DP/TP/PP/SP、ZeRO、混合精度与稳定性 —— 训练优化四件套
人工智能·深度学习·dp·sp·pp·zero·tp
疯狂打码的少年2 小时前
【操作系统】虚拟存储管理(局部性原理、缺页中断)
笔记
NULL指向我3 小时前
TMS320F28379D笔记5:CAN通信多邮箱配置
笔记
2601_951659993 小时前
YOLOv11 改进 - 主干网络 ConvNeXtV2全卷积掩码自编码器网络:轻量级纯卷积架构破解特征坍塌难题,提升特征多样性
深度学习·yolo·计算机视觉
aaaameliaaa4 小时前
进制练习题【找出只出现一次的数字、交换两个变量(不创建临时变量)、统计二进制中1的个数、打印整数二进制的奇数位和偶数位、求两个数二进制中不同位的个数】
c语言·数据结构·笔记·算法
极光代码工作室5 小时前
基于YOLO目标检测的智能监控系统
python·深度学习·yolo·机器学习·计算机视觉
RainCity5 小时前
Java Swing 自定义组件库分享(十三)
java·笔记·后端
zhangfeng11335 小时前
aclnn 完整含义解析 华为昇腾计算库-神经网络算子API(算子开发) acl / aclnn / aclrt 三者区分
人工智能·深度学习·神经网络
2601_951659996 小时前
YOLOv11 改进 - 下采样 轻量化突破:ADown 下采样让 YOLOv11 参量减、精度升
深度学习·yolo·计算机视觉