Continual Pre-Training of Large Language Models: How to (re)warm your model?

本文是LLM系列文章,针对《Continual Pre-Training of Large Language Models: How to (re)warm your model?》的翻译。

大型语言模型的持续预训练:如何(重新)预热你的模型

  • 摘要
  • [1 引言](#1 引言)
  • [2 设置](#2 设置)
  • [3 相关工作](#3 相关工作)
  • [4 持续加热](#4 持续加热)
  • [5 讨论/局限性](#5 讨论/局限性)
  • [6 结论](#6 结论)

摘要

大型语言模型(LLM)通常在数十亿个token上进行预训练,但一旦新数据可用,就会重新启动过程。一个更便宜、更有效的解决方案是能够对这些模型进行持续的预训练,即用新数据更新预训练的模型,而不是从头开始重新训练。然而,由新数据引起的分布偏移通常会导致过去数据的性能下降。在这项工作中,我们研究了不同热身策略的效果。我们的假设是,在新的数据集上进行训练时,必须重新提高学习率以提高计算效率。我们研究了在Pile上预训练的模型(上游数据,300Btoken)的热身阶段,同时我们继续在SlimPapajama上预训练(下游数据,297Btoken),遵循线性热身和余弦衰减时间表。我们在Pythia410M语言模型架构上进行了所有实验,并通过验证困惑来评估性能。我们试验了不同的训练前检查点、不同的最大学习率和不同的热身时间。我们的研究结果表明,虽然重新武装模型首先增加了上游和下游数据的损失,但从长远来看,它提高了下游性能,优于从头开始训练的模型------即使是大型下游数据集。

1 引言

2 设置

3 相关工作

4 持续加热

5 讨论/局限性

6 结论

我们的实验表明,预热到更高的最大学习率有助于在Pile上预先训练的模型适应SlimPajama,而较小的最大学习速率可以保持Pile上的性能。然而,在这两种情况下,重新武装的模型都比从头开始训练的模型有所改进。这些结果促使在新的数据集上使用持续的预训练,而不是从头开始训练。然而,还需要更多的研究来为更大的模型规模、不同的分布变化建立类似的结果,并验证这种策略可以重复应用于更新模型。

相关推荐
大唐荣华13 分钟前
视觉语言模型(VLA)分类方法体系
人工智能·分类·机器人·具身智能
即兴小索奇15 分钟前
AI应用商业化加速落地 2025智能体爆发与端侧创新成增长引擎
人工智能·搜索引擎·ai·商业·ai商业洞察·即兴小索奇
NeilNiu28 分钟前
开源AI工具Midscene.js
javascript·人工智能·开源
nju_spy1 小时前
机器学习 - Kaggle项目实践(4)Toxic Comment Classification Challenge 垃圾评论分类问题
人工智能·深度学习·自然语言处理·tf-idf·南京大学·glove词嵌入·双头gru
计算机sci论文精选1 小时前
CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了
人工智能·深度学习·机器学习·计算机视觉·机器人·cvpr·具身智能
ezl1fe1 小时前
RAG 每日一技(十八):手写SQL-RAG太累?LangChain的SQL智能体(Agent)前来救驾!
数据库·人工智能·后端
我星期八休息1 小时前
大模型 + 垂直场景:搜索/推荐/营销/客服领域开发新范式与技术实践
大数据·人工智能·python
飞哥数智坊1 小时前
等了这么久,企业微信的AI终于来了!
人工智能
Christo31 小时前
SIGKDD-2023《Complementary Classifier Induced Partial Label Learning》
人工智能·深度学习·机器学习
AIGC安琪2 小时前
Transformer中的编码器和解码器是什么?
人工智能·深度学习·ai·语言模型·大模型·transformer·ai大模型