大语言模型的简易可扩展增量预训练策略大语言模型(LLMs)通常需要在数十亿个tokens上进行预训练,一旦有了新数据,又要重新开始训练。更有效的解决方案是增量预训练(Continue PreTraining)这些模型,这与重新训练相比可以节省大量的计算资源。然而,新数据带来的分布偏移通常会导致在旧数据上的性能下降或者对新数据的适应性不佳。在本文中,我们展示了一个简单并且可扩展的结合学习率(LR)重预热(re-warming)、学习率重衰减(re-decaying)以及添加以前的数据,足以达到与从零开始在所有可用数据上重新训练相同的性能水平,