Continual Pre-Training of Large Language Models: How to (re)warm your model?

本文是LLM系列文章,针对《Continual Pre-Training of Large Language Models: How to (re)warm your model?》的翻译。

大型语言模型的持续预训练:如何(重新)预热你的模型

  • 摘要
  • [1 引言](#1 引言)
  • [2 设置](#2 设置)
  • [3 相关工作](#3 相关工作)
  • [4 持续加热](#4 持续加热)
  • [5 讨论/局限性](#5 讨论/局限性)
  • [6 结论](#6 结论)

摘要

大型语言模型(LLM)通常在数十亿个token上进行预训练,但一旦新数据可用,就会重新启动过程。一个更便宜、更有效的解决方案是能够对这些模型进行持续的预训练,即用新数据更新预训练的模型,而不是从头开始重新训练。然而,由新数据引起的分布偏移通常会导致过去数据的性能下降。在这项工作中,我们研究了不同热身策略的效果。我们的假设是,在新的数据集上进行训练时,必须重新提高学习率以提高计算效率。我们研究了在Pile上预训练的模型(上游数据,300Btoken)的热身阶段,同时我们继续在SlimPapajama上预训练(下游数据,297Btoken),遵循线性热身和余弦衰减时间表。我们在Pythia410M语言模型架构上进行了所有实验,并通过验证困惑来评估性能。我们试验了不同的训练前检查点、不同的最大学习率和不同的热身时间。我们的研究结果表明,虽然重新武装模型首先增加了上游和下游数据的损失,但从长远来看,它提高了下游性能,优于从头开始训练的模型------即使是大型下游数据集。

1 引言

2 设置

3 相关工作

4 持续加热

5 讨论/局限性

6 结论

我们的实验表明,预热到更高的最大学习率有助于在Pile上预先训练的模型适应SlimPajama,而较小的最大学习速率可以保持Pile上的性能。然而,在这两种情况下,重新武装的模型都比从头开始训练的模型有所改进。这些结果促使在新的数据集上使用持续的预训练,而不是从头开始训练。然而,还需要更多的研究来为更大的模型规模、不同的分布变化建立类似的结果,并验证这种策略可以重复应用于更新模型。

相关推荐
AI绘画君3 分钟前
Stable Diffusion绘画 | AI 图片智能扩充,超越PS扩图的AI扩图功能(附安装包)
人工智能·ai作画·stable diffusion·aigc·ai绘画·ai扩图
AAI机器之心5 分钟前
LLM大模型:开源RAG框架汇总
人工智能·chatgpt·开源·大模型·llm·大语言模型·rag
Evand J27 分钟前
物联网智能设备:未来生活的变革者
人工智能·物联网·智能手机·智能家居·智能手表
HyperAI超神经36 分钟前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
sp_fyf_202438 分钟前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-03
人工智能·算法·机器学习·计算机视觉·语言模型·自然语言处理
新缸中之脑1 小时前
10个令人惊叹的AI工具
人工智能
学步_技术1 小时前
自动驾驶系列—线控悬架技术:自动驾驶背后的动力学掌控者
人工智能·机器学习·自动驾驶·线控系统·悬挂系统
DogDaoDao2 小时前
【预备理论知识——2】深度学习:线性代数概述
人工智能·深度学习·线性代数
牛哥带你学代码2 小时前
交叠型双重差分法
人工智能·深度学习·机器学习
学步_技术2 小时前
自动驾驶系列—线控系统:驱动自动驾驶的核心技术解读与应用指南
人工智能·机器学习·自动驾驶·线控系统·转向系统