LLM论文笔记 24: A Theory for Length Generalization in Learning to Reason

Arxiv日期：2024.7.29

机构：University of Illinois Chicago

关键词

长度泛化
理论证明

核心结论

Theorem 3.1：因果函数的学习条件
- 因果函数 f 是完全可学习的（输入空间有限、因果函数输入维度有限），即可以通过有限的训练数据准确地学习到目标函数
Corollary 3.1.1：数据覆盖不足的影响
- 训练数据未覆盖输入空间 X 的所有可能值，模型可能无法正确预测未知输入上的因果关系
Corollary 3.1.2：输入空间无限的后果
- 如果输入空间 X 或输入维度是无限的，无论训练数据集有多大，模型在未知输入上的误差总是可能任意大
Theorem 3.2：递归推理与长度泛化
- 如果因果函数 f 被完全学习，推理问题可以表示为有向无环图（DAG），则通过递归地应用 f ，可以解决任意长度或规模的问题
- 训练中仅见过小规模问题的模型可以泛化到更长的推理任务
Theorem 3.3：局部性条件与滑动窗口机制
- 滑动窗口是解决长度泛化问题的充分条件
- 如果推理问题的最大输入元素距离 R < ∞ ，并且训练数据包含所有长度为 4R+1 的子序列（可以通过滑动窗口（长度为 4R+1 ）唯一确定下一步推理的输入）
Definition 3.3：well-defined 的因果输入恢复
- 如果推理问题是 (n, r) -一致的，可以定义一个函数，通过 n 个长度为 r 的子序列唯一恢复当前推理步骤所需的因果输入
Theorem 3.5：从 R < ∞ 到 (1, 4R+1) -一致性
- 如果 R < ∞ 且每个输入元素最多参与一个推理步骤，则问题是 (1, 4R+1) -一致的
Theorem 3.6：因果输入的可恢复性
- 如果问题是 (n, r) -一致的：
  - 可以通过 n 个长度为 r 的子序列恢复推理步骤中所有的因果输入。
  - 因果输入集合是well-defined 的，并可以通过函数 \gamma 唯一确定。
Theorem 3.7： 的学习性
- 如果问题是 (n, r) 一致的，函数可以通过有限训练数据学习。

主要方法

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文