工业界主流大语言模型后训练技术综述：偏好对齐与能力提升

在人工智能领域，大语言模型的发展日新月异，其性能优化成为研究焦点。本文聚焦工业界主流开源大语言模型（LLM）的后训练技术，着重剖析训练算法与数据处理环节，探寻模型性能提升的核心要素。

一、什么是大语言模型后训练

大语言模型后训练是在预训练模型的基础上，进一步优化模型性能的过程。预训练模型就像是一个拥有大量语言知识的 "毛坯房"，它通过学习海量文本数据，掌握了基本的语言语法、语义和一些常见的知识。但在实际应用中，还需要根据特定的任务和需求进行 "精装修"，这就是后训练的意义所在。后训练通常会利用特定的数据集和算法，对模型进行微调，使其能够更好地适应诸如回答问题、生成文本、遵循指令等任务。例如，一个预训练模型可能在一般的语言理解上表现不错，但对于专业领域的问题回答可能不够准确，通过后训练，它可以在该领域的知识和推理能力上得到显著提升。

二、为什么后训练如此重要

提升任务性能：不同的应用场景对模型有不同的要求。后训练可以让模型聚焦于特定任务，如在医疗领域，经过后训练的模型能够更准确地理解医学文献、回答患者的健康问题；在金融领域，能更好地分析市场数据、预测趋势等。通过针对性的训练，模型在这些特定任务上的准确率和效率会大幅提高。
适应人类偏好：模型需要与人类的价值观和使用习惯相契合。后训练可以利用人类反馈数据，使模型生成的回答更符合人类的期望，比如更加友好、准确、有条理，避免产生有害或不适当的内容。

三、后训练中的关键技术概念

监督微调（SFT）：这是后训练中常用的方法之一。它需要有标注的数据，比如对于一些问题，已经有了正确的答案或者高质量的回答示例。模型通过学习这些标注数据，调整自身的参数，以提高在类似问题上的回答能力。例如，在训练一个数学问题回答模型时，提供大量的数学题目和详细的解答过程，模型就会学习如何解决这些问题，并在遇到新的数学问题时，更有可能给出正确的答案。
偏好对齐技术：包括直接偏好优化（DPO）、奖励模型（RM）等。DPO 旨在最大化模型生成的好回答与坏回答之间的差异，通过对比不同回答的质量，让模型学习到如何生成更优质的内容。奖励模型则是通过给不同的回答打分，为模型提供一个评估标准，引导模型朝着获得更高奖励分数的方向发展。例如，在一个文本创作任务中，奖励模型可以根据文本的流畅性、逻辑性、创新性等因素给模型的输出打分，模型会根据这个反馈不断改进自己的创作能力。
数据合成与处理：数据是后训练的核心要素之一。数据合成技术可以生成新的训练数据，增加数据的多样性和数量。例如，通过一些规则和模板，可以生成大量的对话示例、问题与回答对。同时，数据处理也非常关键，需要对数据进行清洗，去除噪声、重复和错误的数据，还会进行质量评估和分类，确保用于训练的数据是高质量且符合任务需求的。

四、主流模型后训练技术概览

数据合成技术已成为工业界 LLM 后训练的基石，其重要性不言而喻，企业若能率先构建高效的数据合成流水线，将在竞争中抢占先机。LLM - as - judge 和拒绝采样技术也得到广泛应用，如 Llama3、Qwen2 等模型借助这些技术精心构造偏好数据，通过多模型采样与评估，筛选出高质量样本，为模型训练奠定坚实基础。Instag 方法在多个模型报告中频繁现身，其蕴含的创新理念值得深入挖掘与借鉴。

在模型训练过程中，针对代码、多语言、数学推理等重点能力的单独优化成为关键策略。各模型通过多样化手段，如 Llama3 的代码持续预训练与合成数据优化、多语言的混合数据集训练与数据收集策略调整，精准提升各项能力，以满足复杂多变的应用需求。模型合并技术也备受青睐，Llama3、Gemma2 和 Baichuan2 等通过整合不同模型参数，有效平衡性能，规避单一模型的局限性。

强化学习方面，各模型依据自身架构与应用场景，选用不同算法。Llama3 采用迭代式 DPO，Qwen2 结合 offline DPO + online DPO，ChatGLM4 运用 DPO + PPO，Deepseek - V2 和 Baichuan2 采用 GRPO，Nemotron - 4 则使用迭代式 DPO + RPO，AFM 综合多种技术并创新提出 MDLOO，这些算法在优化模型策略、提升性能方面各显神通。

五、典型模型后训练详解

（一）Llama3

算法创新：Llama3 后训练历经多轮迭代，涵盖 SFT 和 DPO 阶段，充分利用人类注释与合成数据，协同奖励模型与语言模型实现优化。其奖励建模创新地移除边际项、处理相似响应并引入 "edited response"，监督微调借助奖励模型筛选数据，DPO 阶段则通过屏蔽格式化 tokens 和增加 NLL loss 正则化等手段稳定训练，同时采用模型平均策略提升性能，迭代过程不断积累优势。
数据管理与能力提升：后训练数据涵盖人类注释、偏好及 SFT 数据，来源广泛且分类精细。偏好数据经多模型采样与严格注释生成，SFT 数据融合多种渠道并通过拒绝采样优化。在数据处理上，从清洗、修剪到分类、去重，全方位把控质量。在能力提升方面，针对代码、多语言、数学推理等能力，分别采用专业训练、数据合成、拒绝采样、执行反馈、交错推理等技术，实现全方位能力增强。

（二）Qwen2

Qwen2 后训练致力于提升多方面能力，同时确保模型与人类价值观契合，在数据构建上独辟蹊径。协作数据标注通过自动本体提取、指令选择、进化及人工注释，保障数据质量与多样性；自动数据合成运用拒绝采样、执行反馈等策略，应对不同任务挑战，高效合成大规模数据。SFT 与 RLHF 阶段分别精心设置参数与算法，RLHF 的 offline 和 online 训练紧密配合，在线合并优化器有效缓解对齐税问题，提升模型性能。

（三）Nemotron - 4

奖励模型革新：Nemotron - 4 构建的多属性回归奖励模型 HelpSteer2，基于特定架构精准预测细粒度奖励，在 RewardBench 上成绩斐然，为后续训练提供精准导向。

点击工业界主流大语言模型后训练技术综述：偏好对齐与能力提升查看全文。