Simple and Scalable Strategies to Continually Pre-train Large Language Models

Simple and Scalable Strategies to Continually Pre-train Large Language Models

相关链接:arxiv

关键字:Large Language ModelsPre-trainingContinual LearningDistribution ShiftAdaptation

摘要

大型语言模型(LLMs)通常会在数十亿个tokens上进行预训练,然后新数据一旦可用,就开始重新训练过程。一个更为高效的解决方案是持续地预训练这些模型------与重新训练相比,可以节省大量计算资源。然而,新数据分布的变化通常会导致在以前数据上的表现下降或者对新数据适应不良。本文展示了一个简单且可扩展的学习率重新增温(LR re-warming)、重新递减(LR re-decaying)结合以前数据重播的策略足以与在所有可用数据上从零开始重新训练的模型在最终损失和语言模型(LM)评估基准上匹配性能。具体来说,我们在英语到英语(300B参数模型)内的弱分布转换和英语到德语(405M参数模型)的更强分布转换下证明了这一点。选定弱但真实的转换进行大规模实验后,我们还发现我们的持续学习策略对于10B参数LLM的新训练基线也是匹配的。我们的结果表明,LLMs可以通过简单且可扩展的持续学习策略成功更新,仅使用一小部分计算资源即可与重新训练的基线匹配。

核心方法

  • 持续性预训练:为了有效利用计算资源与适应新数据,我们提出LR重新增温和重新递减策略。
  • 加热与递减学习率:通过增温与重新递减学习率来适应新数据集是必要的。这有助于适应性,但也可能增加遗忘。
  • 数据重播:在模型训练中重放以前数据的一定比例,以防止LLMs忘记旧数据(catastrophic forgetting)。
  • 无限学习率计划:我们还提出了一个无限学习率计划,以避免因为学习率重新增温导致的遗忘。

实验说明

使用的模型质量是:405M和10B参数,数据集规模是:超过2000B tokens的大型数据集。

实验结果示例(部分)

Model Dataset Training Tokens Validation Loss
405M Pile+SP Final Pile 300B 2.4
405M Pile+SP Final SP 300B 2.75
405M SP (PT Pile) Pile Continued 2.6
405M SP (PT Pile) SP Continued 2.8
  • 模型:包括Pile训练和在Pile基础上持续训练的模型。
  • 数据集:Pile和SP(SlimPajama)。
  • 训练Tokens:显示了用于训练的tokens数量。
  • 验证损失:显示模型在Pile和SP数据集上的验证损失。

结论

我们展示了LLMs可以通过简单且可扩展的持续学习策略成功更新,只用了一小部分计算资源即可与从零开始在所有可用数据上重新训练的基线匹配。这些策略包括LR重新增温和重新递减、数据重播。通过这些策略,我们成功实现了对模型进行快速适应新数据的同时,最小化了对旧数据的遗忘

相关推荐
Coding茶水间6 小时前
基于深度学习的安全帽检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
adjusttraining11 小时前
毁掉孩子视力不是电视和手机,两个隐藏很深因素,很多家长并不知
深度学习·其他
ziwu14 小时前
【宠物识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·深度学习·图像识别
ziwu15 小时前
海洋生物识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·深度学习·图像识别
WWZZ202515 小时前
快速上手大模型:深度学习12(目标检测、语义分割、序列模型)
深度学习·算法·目标检测·计算机视觉·机器人·大模型·具身智能
Ai1731639157917 小时前
2025.11.28国产AI计算卡参数信息汇总
服务器·图像处理·人工智能·神经网络·机器学习·视觉检测·transformer
后端小张20 小时前
智眼法盾:基于Rokid AR眼镜的合同条款智能审查系统开发全解析
人工智能·目标检测·计算机视觉·ai·语言模型·ar·硬件架构
浩浩的代码花园20 小时前
自研端侧推理模型实测效果展示
android·深度学习·计算机视觉·端智能
晨非辰20 小时前
C++ 波澜壮阔 40 年:从基础I/O到函数重载与引用的完整构建
运维·c++·人工智能·后端·python·深度学习·c++40周年
这张生成的图像能检测吗1 天前
(论文速读)EfficientTrain++: 高效视觉骨干训练的通用课程学习
人工智能·深度学习·计算机视觉·训练方法