迄今为止最强大的开源 LLM，15 万亿 Token 预训练的 LLaMA3 强势来袭

刚刚 Meta LLaMA3 强势发布，迄今为止功能最强大的公开可用的 LLM。此版本是在 15 万亿个 Token 上预训练的语言模型，具有 8B 和 70B 两种参数规模，可以支持广泛的用户场景，在各种行业基准上取得了最先进的性能，并提供一些了新功能，包括改进的推理能力，这些都是同时期最好的开源模型。除此之外，LLaMA3还有400B参数的模型正在训练中。

模型架构

LLaMA3 中选择了相对标准的仅解码器 Transformer 架构。与 LLaMA2 相比，做了几个关键的改进。 Llama 3 使用具有 128K tokens 词汇表的 tokenizer，可以更有效地对语言进行编码，从而显著提高模型性能。为了提高 Llama 3 模型的推理效率，在 8B 和 70B 大小上采用了分组查询注意力 (GQA)。同时，在 8192 个Token的序列上训练模型，使用掩码确保自注意力不会跨越文档边界。

	训练数据	模型参数	上下文长度	GQA	训练Token数	知识截止
Llama 3	公开在线数据的新组合。	8B	8k	Yes	15T+	2023 年 3 月
	公开在线数据的新组合。	70B	8k	Yes	15T+	2023 年 12 月

注意：训练Token数仅指预训练数据。

数据工程

LLaMA3 使用了超过 15T 的 Tokens 进行预训练，这数据全部从公开来源收集。训练数据集比 LLaMA2 使用的数据集大七倍，并且包含四倍多的代码。并且 LLaMA3 预训练数据集中有超过 5% 的数据由涵盖 30 多种语言的高质量非英语数据组成。

为了确保 LLaMA3 接受最高质量数据的训练，开发了一系列数据过滤流水线。这些流水线包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除和文本分类器来预测数据质量。我们发现前几代 LLaMA 非常擅长识别高质量数据，因此我们使用 LLaMA2 作为文本质量分类器生成训练数据为 LLaMA3 提供支持。

此外，还进行了广泛的实验，以评估在最终预训练数据集中混合不同来源的数据的最佳方法。这些实验使我们能够选择一个数据组合，确保 LLaMA3 在各种场景（包括编码、历史知识等）中表现良好。

训练优化

为了训练最大的 LLaMA3 模型，结合了三种类型的并行策略：数据并行、模型并行和流水线并行。当同时在 16K GPU 上进行训练时，最高效可实现每个 GPU 超过 400 TFLOPS 的计算利用率。为了最大限度地延长 GPU 的正常运行时间，开发了一种先进的训练堆栈，可以自动执行错误检测、处理和维护。同时，还极大地改进了硬件可靠性和静默数据损坏检测机制，开发了新的可扩展存储系统，以减少检查点和回滚的开销。这些改进使总体有效训练时间超过 95%。综合起来，这些改进使 LLaMA3 的训练效率比 LLaMA2 提高了约三倍。

scaling laws 新发现

在 LLaMA3 的开发过程中，我们对scaling行为进行了一些新的观察。例如，虽然 8B 参数模型在 Chinchilla 的最佳训练计算量对应于约 200B 个Token，但我们发现，即使在模型训练完成之后，再接受了两个数量级以上的数据训练，模型性能仍在继续提高。我们在对多达 15T Token进行训练后，我们的 8B 和 70B 参数模型都继续以对数线性方式改进。较大的模型可以用较少的训练计算来匹配这些较小模型的性能，但较小的模型通常是首选，因为它们在推理过程中效率更高。

指令微调优化

为了充分释放预训练模型在聊天场景中的潜力，还对指令微调方法进行了创新。我们的后训练方法是监督微调（SFT）、拒绝采样、近端策略优化（PPO）和直接策略优化（DPO）的组合。 SFT 中使用的提示质量以及 PPO 和 DPO 中使用的偏好排名对对齐模型的性能有着巨大的影响。在模型质量方面的一些最大改进来自于仔细整理这些数据并对人类标注者提供的标注进行多轮质量保证。

通过 PPO 和 DPO 从偏好排名中学习也极大地提高了 LLaMA3 在推理和编码任务上的性能。我们发现，如果你向模型提出一个它难以回答的推理问题，该模型有时会产生正确的推理轨迹：模型知道如何产生正确的答案，但不知道如何选择它。对偏好排名的训练使模型能够学习如何选择它。

性能

预训练模型性能

指令微调模型性能

人工评估结果

在 Llama 3 的开发过程中，研究了标准基准上的模型性能，并寻求优化现实场景的性能。为此，开发了一套新的高质量人类评估集。该评估集包含 1800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、抽取、扮演一个角色/人物、开放式问答、推理、重写和总结。为了防止模型在此评估集上意外过度拟合，即使我们自己的建模团队也无法访问它。

下图显示了我们针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 对这些类别和提示进行人工评估的汇总结果。

LLaMA3 将在各大平台大规模部署

LLaMA3 模型将很快在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上可用，并得到 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 提供的硬件平台的支持。

LLaMA3-400B 正在训练中

LLaMA3 最大的模型有超过 400B 个参数，但该模型仍在训练中。基于 LLaMA3-400B 的早期检查点的性能测试如下：

参考文档：