【大语言模型】语言模型学习什么以及何时学习？隐式课程假说

[【大语言模型】语言模型学习什么以及何时学习？隐式课程假说](#【大语言模型】语言模型学习什么以及何时学习？隐式课程假说)
- 目录
- [📌 文章信息](#📌 文章信息)
- [📄 摘要信息](#📄 摘要信息)
- [1. 🔍 研究背景](#1. 🔍 研究背景)
- [2. ❗问题与挑战](#2. ❗问题与挑战)
- [3. ⚙️ 算法模型](#3. ⚙️ 算法模型)
- [4. 💡 创新点](#4. 💡 创新点)
- [5. 📊 实验效果（重要数据与结论）](#5. 📊 实验效果（重要数据与结论）)
- [6. 📈 推荐阅读指数](#6. 📈 推荐阅读指数)
- - 推荐指数：★★★★★ (五星/强烈推荐)
  - 推荐理由：
- [7. 总结与展望](#7. 总结与展望)
- 后记

📌 文章信息

原始标题: What Do Language Models Learn and When? The Implicit Curriculum Hypothesis
中文翻译: 语言模型学习什么以及何时学习？隐式课程假说

What do Language Models Learn and When? The Implicit Curriculum Hypothesis

作者: Emmy Liu, Kaiser Sun 等

日期: 2026-04-09

arXiv: https://arxiv.org/abs/2604.08510v1

📄 摘要信息

大型语言模型（LLM）能够执行极其复杂的任务，但其能力在预训练过程中如何逐步涌现的细粒度细节，我们仍然知之甚少。关于验证损失的缩放定律只能告诉我们模型随着计算量增加在整体上提升了多少，却无法揭示模型获得了哪些具体技能以及以何种顺序获得。为了弥补这一点，我们提出了隐式课程假说：预训练过程遵循一个跨模型和数据混合的、具有组合性和可预测性的课程。我们通过设计一套覆盖检索、形态变换、指代消解、逻辑推理和数学等领域的简单、可组合的任务来验证这一假说。利用这些任务，我们追踪了四个模型家族（参数规模从4.1亿到130亿）中技能涌现的时间点。我们发现，模型达到固定精度阈值时的技能涌现顺序具有显著的一致性（在45个模型对上的平均斯皮尔曼相关系数 ( \rho = 0.81 )），并且复合任务通常在其组成任务之后涌现。此外，我们发现这种结构被编码在模型表示中：具有相似函数向量表示的任务在训练中也倾向于遵循相似的发展轨迹。通过使用从任务集中导出的表示空间，我们可以有效地预测简单的、留出的组合式任务在整个预训练过程中的发展轨迹（跨模型的 ( R^2 ) 为0.68-0.84），而无需事先对其进行评估。总之，这些结果表明，预训练过程比损失曲线所揭示的更具结构性：技能以一种跨模型一致的、组合式的顺序涌现，并且这种顺序可以从模型内部结构中解读出来。

1. 🔍 研究背景

当前，训练大型语言模型的成本高达数百万美元，但评估其训练进程的主要手段却相当粗糙且信息量有限。最常用的指标是交叉熵损失 ，然而，这个聚合指标在模型学习到质变性的新技能时，其下降过程却显得平滑而连续，掩盖了技能涌现的"顿悟"时刻。另一种方法是定期在下游基准测试（如MMLU, GSM8k）上评估模型。但这些基准测试任务本身是多种技能的复杂组合，当模型表现不佳时，研究者很难诊断出瓶颈究竟在于哪一个具体的子技能（例如，是数值计算能力不足，还是多步规划能力欠缺，亦或是语言理解问题）。

与此同时，理论研究表明，神经网络在学习过程中表现出"简单性偏置 "，即先学习简单的函数，再学习复杂的函数。此外，"量子化假说"也提出，平滑的缩放定律曲线背后，是模型在离散地学习一个个独立的"技能量子"。然而，这些理论大多在简化环境中得到验证，对于真实的大规模预训练场景，我们尚不清楚这些技能之间是否存在结构化的依赖关系，以及这种学习顺序是否具有普适性。

为了填补这一空白，本文提出了"隐式课程假说"，旨在系统性地探索和验证LLM在预训练过程中技能涌现的动态规律，为理解和诊断模型行为提供新的视角。

2. ❗问题与挑战

本文旨在回答一个核心问题：LLM在预训练期间学习技能的动态过程是否具有结构性和可预测性？ 为了解决这个问题，研究团队面临并克服了以下具体挑战：

挑战1：如何定义和量化"技能涌现"？

模型在训练中并非从零到一地瞬间掌握一个技能，其性能通常是从随机概率逐渐提升到较高水平。如何精确定义"技能涌现"的时间点是一个挑战。使用固定阈值（如准确率达到50%）可能会因为任务难度不同而产生偏差；而使用相对阈值（如达到模型自身最终性能的80%）则可能因为弱小模型性能上限低而误判。论文需要找到一个既能跨模型、跨任务公平比较，又能真实反映技能功能性出现的定义。
挑战2：如何设计一个具有内在依赖结构的任务集？

为了验证"组合式顺序"（即简单技能是复杂技能的前提），研究者需要一个任务集，其中任务之间存在清晰、可控的组合关系。这意味着不能简单地从现有基准中随机挑选任务，而需要自底向上地构建一个任务体系。例如，需要能明确定义"首字母大写"和"英译法"是"英译法并将译文首字母大写"这个复合任务的组成部分。设计这种大规模、多样化的任务集本身就是一个巨大的工程。
挑战3：如何跨越不同架构、不同规模的模型进行公平比较？

不同的模型家族（如Pythia, OLMo）使用不同的训练数据、不同的架构超参数，训练时长（token数）也不同。如何对齐它们的训练时间线，使得比较技能涌现的"早晚"有意义？此外，小模型可能永远无法学会某些复杂任务，如何将这些"未涌现"的任务纳入排序比较中，而不破坏统计的有效性？
挑战4：如何从模型内部"读取"技能结构，而不仅仅是观察行为？

行为上的观察（如任务A总是比任务B先学会）只是相关性证据。为了证明技能结构是模型内在的、可预测的属性，需要一种方法将任务的表征（模型内部对任务的编码）与其学习动态（行为轨迹）联系起来。如何提取有意义的任务表征，并证明表征空间中的相似性能够因果性地预测学习轨迹的相似性，是一个核心的技术挑战。

3. ⚙️ 算法模型

针对上述挑战，论文提出了一套系统性的方法论和"算法"框架，主要包括任务设计、评估协议和表征学习与预测三个部分。

核心概念：隐式课程假说

首先，论文形式化定义了其核心假说。设任务集 ( \mathcal{T} ) 上存在一个设计层面的依赖关系 ( \prec )，表示任务 ( \tau_j ) 在构建时组合依赖于任务 ( \tau_i )。定义模型 ( m ) 上任务 ( \tau ) 的涌现时间 ( t_{\tau}^*(m) ) 为其性能首次超过固定阈值 ( \theta ) 的训练步数。假说包含三个可验证的命题：

H1. 组合式顺序 ：对于任何复合任务 ( \tau_j ) 及其任何前置任务 ( \tau_i )，有 ( t_{\tau_i}^(m) \le t_{\tau_j}^(m) )。
H2. 跨模型稳定性：不同模型的涌现顺序高度相关。
H3. 表征对齐：具有相似内部表征的任务，其学习轨迹也相似。

1. 任务设计与评估协议

任务套件 ：论文设计了两类任务：元素任务 （Elemental Tasks）和复合任务（Composite Tasks）。元素任务是基础能力，如复制、大写、小写、词性转换、简单算术、事实提取等。复合任务则明确由两个或多个元素任务组合而成，例如"将英文单词翻译成西班牙语，然后将结果全部转为大写"或"将名词转为复数形式，然后反转字符串"。这种设计确保了任务间的依赖关系 ( \prec ) 是先验已知的，为验证H1提供了黄金标准。
模型与检查点：选取了Pythia、OLMo-2、OLMo-3、LLM360四个家族的9个模型（4.1B-13B参数）。为了细粒度地追踪技能涌现，从每个模型的训练初期（通常是前1T token）均匀采样了约20个中间检查点。
涌现定义 ：经过比较，论文采用绝对阈值（如准确率达到80%）来定义涌现。这个定义在不同模型和任务间更具可比性，能够捕捉到任务相关计算电路"功能上可行"的时刻。

2. 表征提取与轨迹预测算法

为了验证H3，论文提出了一套基于函数向量（Function Vector, FV）的预测框架。

步骤1：提取任务表征
对于每个任务 ( \tau )，使用一组上下文学习（ICL）示例构建提示。在模型上运行这些提示，并收集模型在最后一个非填充token位置的内部激活值。
论文比较了两种提取方法：
- 头提取：使用因果中介分析（CIE）找到对任务性能影响最强的稀疏注意力头集合，将这些头的输出平均作为任务向量 ( v_{\tau}^H )。
- 隐藏状态提取 ：直接提取最后一个transformer块的输出隐藏状态 ( v_{\tau}^{\ell} )。
  最终，通过一个三标准（任务内一致性、任务间可区分性、组合结构）的超参数搜索，为每个模型选择最佳提取方法（通常隐藏状态效果更好）。
步骤2：计算表征相似性
将提取的任务向量 ( v ) 归一化后，使用径向基函数（RBF）核 来计算任务间的相似度：( K(v_i, v_j) = \exp\left(-\frac{|v_i - v_j|^2}{2\sigma_k2}\right) )。这个核矩阵 ( K ) 捕捉了任务在模型内部表征空间中的几何关系。
步骤3：核岭回归预测学习轨迹
对于某个留出的复合任务 ( c )，其学习轨迹 ( a_c(t) )（在训练步 ( t ) 的准确率）是未知的。但我们已知其他所有任务（( S )）的学习轨迹 ( y_t = [a_j(t)]*{j \in S} ) 和它们的表征核矩阵 ( K_S )。
我们通过**核岭回归（Kernel Ridge Regression）**来学习一个从表征空间到性能的映射。对于每个训练步 ( t )，求解： $\\alpha_t = (K_S + \\lambda I)\^{-1} y_t$ 然后，利用留出任务 ( c ) 与训练任务的相似度向量 ( k_c = [K(v_c, v_j)]* {j \in S} )，预测其在时间步 ( t ) 的性能： $\\hat{a}_c(t) = k_c\^T \\alpha_t$ 通过遍历所有训练步 ( t )，即可得到对任务 ( c ) 整个学习轨迹的预测。整个过程无需在训练期间真正评估任务 ( c )。

4. 💡 创新点

提出并实证验证了"隐式课程假说"：这是首个将简单性偏置、量子化假说和技能组合结构统一到一个框架下，并在真实规模的大模型预训练中进行大规模实证检验的工作。它证明了LLM的技能涌现不仅是分阶段的，而且是高度结构化、可预测和跨模型一致的。
构建了具有明确组合依赖关系的诊断性任务套件：与使用黑盒的下游基准不同，论文自建的任务集（涵盖字符串操作、形态学、翻译、逻辑、算术等）具有清晰的元素-复合结构。这为研究技能的组合式学习提供了独一无二的"探针"，使得对H1的验证成为可能。
建立了表征空间与学习动态之间的预测性联系 ：论文最突出的创新在于，它不仅仅是观察到表征相似性与轨迹相似性相关，而是更进一步，利用核岭回归成功预测了留出复合任务的完整学习轨迹。这是从"相关性"走向"因果性预测"的关键一步，有力地支持了H3，并为"无需评估即可监控训练"开辟了新路径。
揭示了固定绝对阈值对于跨模型比较的重要性 ：通过系统比较不同涌现定义，论文发现只有使用绝对性能阈值才能获得跨模型的稳定涌现顺序，而相对阈值则因模型能力差异而失效。这一方法论发现对于未来研究技能涌现具有重要的指导意义。

5. 📊 实验效果（重要数据与结论）

实验设置：
- 模型：9个模型，来自Pythia (410M, 1.4B, 12B), OLMo-2 (1B, 7B, 13B), OLMo-3 (7B), LLM360 (Amber, Crystal) 四个家族。
- 任务：包含约70个任务（_{20个元素，}50个复合），覆盖字符串操作、形态学、翻译、世界知识、算术、逻辑、阅读理解等。
- 评估指标：斯皮尔曼等级相关系数（( \rho )）衡量排序一致性；决定系数（( R^2 )）和平均绝对误差（MAE）衡量轨迹预测质量。
重要数据与结论：
- H1 & H2：涌现顺序的一致性
  - 技能涌现的总体顺序非常稳定：复制/简单指代 → 大小写转换 → 形态变化 → 知识依赖任务（翻译） → 组合/推理任务。这个顺序在所有模型上基本一致。
  - 跨模型排序一致性极高：在45对模型比较中，平均斯皮尔曼相关系数 ( \rho = 0.81 )，全部 ( p < 10^{-7} )。即使跨家族（如OLMo-2 vs. Pythia-410M），( \rho ) 也高达0.64-0.84。
  - 组合顺序得到验证 ：在76对（复合任务，前置任务）关系中，有54对（71%）符合"前置任务先于复合任务涌现"的规律。违反情况主要与一个特定的简单任务（first_letter）有关，揭示了该任务可能存在的特殊性。
  - 绝对阈值是关键：使用绝对阈值（准确率>80%）时，排序一致性高；而使用相对阈值（如达到自身最终性能的50%）时，相关性大幅下降（平均 ( \rho ) 从0.86降至0.53），证实了绝对阈值更能捕捉技能功能性涌现的实质。
- H3：基于表征的轨迹预测
  - 预测性能强大：使用所有任务（元素+复合）的表征作为基础，对留出复合任务的轨迹进行预测，( R^2 ) 范围在0.676 (Crystal) 到0.838 (OLMo2-13B) 之间。这表明表征空间蕴含了丰富的学习动态信息。
  - 存在"组合瓶颈"：当预测基础仅限为元素任务时，预测误差（MAE）平均增加了135%（如OLMo2-1B的MAE从0.070升至0.289）。这说明复合任务的学习动态并不仅仅是其组成部分的线性组合，复合任务之间共享着元素任务所不具备的结构信息，这些信息对于准确预测至关重要。
  - 可视化案例 ：论文展示了具体的预测曲线，如对fr_eng_upper（法语译英语并转大写）任务的预测，其预测轨迹与实际轨迹几乎完美重合（( R^2=0.99, MAE=0.017 )），生动地展示了方法的有效性。

6. 📈 推荐阅读指数

推荐指数：★★★★★ (五星/强烈推荐)

7. 总结与展望

总结：

这篇题为《语言模型学习什么以及何时学习？隐式课程假说》的论文，通过大规模、多家族的实证研究，有力地证明了大型语言模型在预训练过程中遵循一个结构化的"隐式课程"。技能以组合的方式、按可预测的顺序涌现，且这种顺序在不同模型间高度一致。更重要的是，论文通过函数向量和核岭回归，首次展示了仅利用模型内部表征即可高精度预测复合技能的完整学习轨迹，而无需在训练过程中对其进行实际评估。这项工作不仅深化了我们对LLM学习动态的理解，也为更智能、更高效的模型监控与开发开辟了新道路。

未来展望：

预训练监控与诊断：本文提出的方法可直接应用于实际训练。通过定期评估一小部分"探针"任务，并利用其表征预测所有其他任务的轨迹，训练者可以实时获知模型是否"偏科"或"进度落后"，从而进行早期干预。
数据混合的智能设计：如果知道技能的依赖关系，就可以反向设计数据配方。例如，在训练数据中有意识地增加某项关键前置任务的占比，可能会加速其后所有复合任务的涌现，从而实现"杠杆作用"。未来的工作可以探索如何利用这种隐式课程来优化数据加载顺序和比例。
超越预训练：微调与对齐：这种隐式课程是否也存在于微调或RLHF阶段？在微调过程中，模型学习新技能（如遵循指令、对齐人类偏好）时，是否也遵循类似的、依赖于预训练基础技能的课程？研究这个问题对于构建安全、有用的AI系统至关重要。
干预与编辑 ：既然表征空间与行为轨迹紧密相连，一个激动人心的方向是尝试直接编辑模型表征。例如，能否通过向模型注入一个"缺失"的first_letter函数向量，来强制其提前学会相关的复合任务？这将是从"被动监控"走向"主动塑造"模型能力的关键一步。
拓展到更广泛的任务：本文的任务集虽然多样，但仍有限。未来需要将这一框架扩展到更复杂、更开放的领域（如长文本理解、代码生成、多模态任务），以检验隐式课程假说的普适性。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞, 关注和评论) !!!
本博客将持续为您带来计算机人工智能前沿技术研究进展分享，助您更快了解 AI前沿技术。

【大语言模型】 语言模型学习什么以及何时学习？隐式课程假说