【大模型】EvoLM论文LLM训练各个阶段效果

量子-Alex2026-05-04 11:15

研究问题一：预训练计算量的扩展对上下游性能的影响

这个问题旨在探究单纯增加预训练阶段的token数量（即扩展计算量），是否以及如何影响模型在通用语言任务（上游）和特定下游任务（如数学推理）上的表现，特别是是否一直存在"大力出奇迹"的线性增益。

实验设计

模型与数据：从零开始训练0.5B、1B、4B三种参数的模型，预训练数据为FineWeb-Edu。
变量控制：将预训练token预算从100亿（10BT）逐步扩展到3200亿（320BT），覆盖从计算最优（Chinchilla定律，~20BT for 1B）到严重过度训练（>16倍计算最优）的各种情况。
性能评估：
- 上游任务：评估不同预训练量下基座模型在完形填空任务（HellaSwag, PIQA等）上的平均准确率。
- 下游任务：对所有预训练后的模型，统一进行相同的领域特定CPT、SFT和SFT+RL流程，然后评估它们在领域内（ID，如数学）和领域外（OOD，如代码、逻辑）的下游生成任务性能。

主要发现与结论

收益递减与饱和：上游性能随预训练token增加而提升，但在达到模型参数量的约80倍至160倍后，收益急剧递减并趋于饱和。例如，1B模型从200亿token到800亿token性能提升显著，但从此往后提升微乎其微。
过度训练对下游任务的非单调影响：
- SFT和SFT+RL模型的下游性能同样在预训练约80BT后饱和。
- 更重要的是，过度的预训练（>160BT）甚至可能损害某些下游和OOD任务性能，导致准确率和生成质量（ORM分数）下降。这被总结为关键发现1：过度的通用领域预训练并不总能为特定领域的后训练带来提升，甚至可能有害。
模型规模与预训练量的互动：
- 在有限预训练预算下（如80BT），小模型（1B）可能优于大模型（4B）。
- 只有预训练token量达到饱和阶段（如160BT），大模型的规模优势才被"解锁"，在领域内和OOD性能上显著超越小模型。这被总结为关键发现2。

研究问题二：领域特定持续预训练的扩展及其对灾难性遗忘的影响

此问题旨在研究对预训练基座模型进行领域数据（数学）的持续预训练时，增加CPT计算量会产生什么影响，以及如何平衡新知识的获取和旧知识的遗忘。

实验设计

基础模型：使用一个经过充分训练的1B-160BT模型。
变量控制：
- CPT数据量：将CPT的总token数从0逐步增加到50BT。
- 数据回放策略：在CPT阶段引入不同比例的通用预训练数据（FineWeb-Edu）回放，以研究其对缓解遗忘的作用。例如，设置"8+42BT"，即80亿通用回放token加上420亿领域token。
性能评估：评估不同CPT配置下的上游通用任务准确率和下游（经过统一SFT后）任务表现。

主要发现与结论

灾难性遗忘与回放的缓解：
- 纯粹的领域数据CPT会持续损害上游通用语言能力（灾难性遗忘）。
- 在CPT中加入少量通用数据（"回放"，如约5%的比例）可以有效减缓这种遗忘，维持更高的上游准确率。这被总结为关键发现3：加入少量回放预算可以有效缓解灾难性遗忘。
CPT对下游性能的正向作用与饱和点：
- 领域内下游任务的性能随CPT数据量增加而稳定提升，但同样存在饱和点，大约在32BT领域数据时达到峰值。
- CPT数据量越充足，后续的RL微调相比于纯SFT带来的增益就越显著。反之，如果CPT数据量为零，RL甚至可能比纯SFT表现更差。
CPT的泛化作用：充足的领域特定CPT不仅提升了ID性能，也有效提升了模型在OOD任务上的表现。这揭示了CPT是连接通用预训练和特定任务后训练的关键桥梁。

研究问题三：监督微调计算的扩展方式及其潜在风险

此问题探讨了扩大SFT阶段的计算量（通过增加训练轮数或数据集大小），如何影响模型的领域内性能和跨领域泛化能力。

实验设计

基础模型：统一使用1B-160BT-8+42BT模型作为起点。
变量控制：设计了两个独立的实验。
- 实验A：不同SFT轮数。固定10万条SFT样本，训练{1, 2, 4, 8, 16, 32}个周期。
- 实验B：不同SFT数据集大小。固定1个周期，样本量从5万增加到40万。
性能评估：评估各SFT模型及其后续RL模型的下游性能。

主要发现与结论

ID与OOD性能的分化：
- ID性能：随SFT计算量（轮数或数据量）增加而单调提升，存在收益递减。
- OOD性能：呈现倒U型关系。在2-4个轮次时达到峰值，之后过度训练（更多轮次或更大数据量）会导致OOD性能下降。这被总结为关键发现7：过度的SFT会损害OOD泛化能力。
过度SFT对RL的限制：在过度的SFT（特别是过多轮次）基础上应用RL，RL带来的性能增量收益会显著减少。这意味着SFT阶段的过度记忆会压缩RL阶段的改进空间。这被总结为关键发现8。

研究问题四：强化学习扩展的效益与本质

此问题旨在探究扩展RL计算（增加轮数或数据量）对模型性能的影响，并试图理解RL提升性能的本质是增强了推理能力，还是仅仅改变了输出概率分布。

实验设计

基础模型：统一使用1B-160BT-8+42BT-100Kep1模型作为起点。
变量控制：
- 实验A：不同RL轮数。固定10万样本，训练{0, 1, 2, ..., 32}轮。
- 实验B：不同RL数据集大小。固定8个周期的训练，样本量从0增加到40万。
性能评估：除了常规准确率指标，还特别关注了Pass@16（16次采样中至少一次正确）和Correct Ratio@16（在至少有一个正确解的群体中，正确解的比例）。

主要发现与结论

扩展饱和与崩溃：
- 贪婪解码和多数投票等指标在约4-8个轮次或50-100K样本时性能达到饱和。
- 在使用过大样本量（35万以上）时，模型性能会急剧崩溃，原因是模型学会生成超长回复直至超出上下文窗口限制。
RL的核心机制：
- 实验发现，随着RL的进行，Pass@16的准确率上升缓慢甚至下降，而Correct Ratio@16却持续上升。
- 这表明RL的主要作用是增强了模型自身生成正确解序列的概率（置信度），而没有实质上扩大模型能够解决的问题集合。这被总结为关键发现10：超出饱和点后，RL主要提升高质量轨迹的概率，而非改进基础推理能力。
SFT与RL的数据分配权衡：
- 在总数据固定为100K的限制下，将更多样本分配给SFT能最大化ID收益，但会牺牲OOD性能。
- 反之，将更多样本分配给RL则能最大化OOD泛化能力。

补充研究结论

除了以上四大核心问题，论文还通过补充实验得到了两个方法论上的重要结论：

中间检查点不可靠：研究明确指出，从长时间训练中获取的中间检查点不能作为小规模完全训练模型的替代品进行分析，因为前者缺少完整的学习率衰减过程，其下游性能被显著低估。这为未来的研究规范提供了警示。
ORM分数是可靠的无监督指标：与验证集困惑度相比，大型模型给出的结果奖励模型分数与下游生成任务的准确率之间存在更强的相关性（相关系数0.62-0.84）。因此，在难以进行直接评估的场景下，ORM分数可作为一个更可靠的模型性能代理指标。

上一篇：第四篇：多级缓存架构——Caffeine + Redis + MySQL 三级协同

下一篇：心理问题如何应对？重庆心理医院指南+案例分享

热门推荐

01GitHub 镜像站点 02【AI】2026 年具身智能模型和世界模型总结 03【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 04DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 05Codex 接入 DeepSeek API 完整配置文档 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07CC-Switch & Claude 基于 Linux 服务器安装使用指南 08几个好用的ip纯净度检测网站 092026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 10API Key 登录 Codex 也能用插件了，还支持会话删除和导出