Continual Pre-Training of Large Language Models: How to (re)warm your model?

本文是LLM系列文章,针对《Continual Pre-Training of Large Language Models: How to (re)warm your model?》的翻译。

大型语言模型的持续预训练:如何(重新)预热你的模型

  • 摘要
  • [1 引言](#1 引言)
  • [2 设置](#2 设置)
  • [3 相关工作](#3 相关工作)
  • [4 持续加热](#4 持续加热)
  • [5 讨论/局限性](#5 讨论/局限性)
  • [6 结论](#6 结论)

摘要

大型语言模型(LLM)通常在数十亿个token上进行预训练,但一旦新数据可用,就会重新启动过程。一个更便宜、更有效的解决方案是能够对这些模型进行持续的预训练,即用新数据更新预训练的模型,而不是从头开始重新训练。然而,由新数据引起的分布偏移通常会导致过去数据的性能下降。在这项工作中,我们研究了不同热身策略的效果。我们的假设是,在新的数据集上进行训练时,必须重新提高学习率以提高计算效率。我们研究了在Pile上预训练的模型(上游数据,300Btoken)的热身阶段,同时我们继续在SlimPapajama上预训练(下游数据,297Btoken),遵循线性热身和余弦衰减时间表。我们在Pythia410M语言模型架构上进行了所有实验,并通过验证困惑来评估性能。我们试验了不同的训练前检查点、不同的最大学习率和不同的热身时间。我们的研究结果表明,虽然重新武装模型首先增加了上游和下游数据的损失,但从长远来看,它提高了下游性能,优于从头开始训练的模型------即使是大型下游数据集。

1 引言

2 设置

3 相关工作

4 持续加热

5 讨论/局限性

6 结论

我们的实验表明,预热到更高的最大学习率有助于在Pile上预先训练的模型适应SlimPajama,而较小的最大学习速率可以保持Pile上的性能。然而,在这两种情况下,重新武装的模型都比从头开始训练的模型有所改进。这些结果促使在新的数据集上使用持续的预训练,而不是从头开始训练。然而,还需要更多的研究来为更大的模型规模、不同的分布变化建立类似的结果,并验证这种策略可以重复应用于更新模型。

相关推荐
水如烟6 小时前
孤能子视角:“组织行为学–组织文化“
人工智能
大山同学6 小时前
图片补全-Context Encoder
人工智能·机器学习·计算机视觉
薛定谔的猫19826 小时前
十七、用 GPT2 中文对联模型实现经典上联自动对下联:
人工智能·深度学习·gpt2·大模型 训练 调优
壮Sir不壮6 小时前
2026年奇点:Clawdbot引爆个人AI代理
人工智能·ai·大模型·claude·clawdbot·moltbot·openclaw
PaperRed ai写作降重助手6 小时前
高性价比 AI 论文写作软件推荐:2026 年预算友好型
人工智能·aigc·论文·写作·ai写作·智能降重
玉梅小洋6 小时前
Claude Code 从入门到精通(七):Sub Agent 与 Skill 终极PK
人工智能·ai·大模型·ai编程·claude·ai工具
-嘟囔着拯救世界-7 小时前
【保姆级教程】Win11 下从零部署 Claude Code:本地环境配置 + VSCode 可视化界面全流程指南
人工智能·vscode·ai·编辑器·html5·ai编程·claude code
正见TrueView7 小时前
程一笑的价值选择:AI金玉其外,“收割”老人败絮其中
人工智能
Imm7777 小时前
中国知名的车膜品牌推荐几家
人工智能·python
风静如云7 小时前
Claude Code:进入dash模式
人工智能