工业界主流大语言模型后训练技术综述:偏好对齐与能力提升

在人工智能领域,大语言模型的发展日新月异,其性能优化成为研究焦点。本文聚焦工业界主流开源大语言模型(LLM)的后训练技术,着重剖析训练算法与数据处理环节,探寻模型性能提升的核心要素。

一、什么是大语言模型后训练

大语言模型后训练是在预训练模型的基础上,进一步优化模型性能的过程。预训练模型就像是一个拥有大量语言知识的 "毛坯房",它通过学习海量文本数据,掌握了基本的语言语法、语义和一些常见的知识。但在实际应用中,还需要根据特定的任务和需求进行 "精装修",这就是后训练的意义所在。 后训练通常会利用特定的数据集和算法,对模型进行微调,使其能够更好地适应诸如回答问题、生成文本、遵循指令等任务。例如,一个预训练模型可能在一般的语言理解上表现不错,但对于专业领域的问题回答可能不够准确,通过后训练,它可以在该领域的知识和推理能力上得到显著提升。

二、为什么后训练如此重要

  1. 提升任务性能:不同的应用场景对模型有不同的要求。后训练可以让模型聚焦于特定任务,如在医疗领域,经过后训练的模型能够更准确地理解医学文献、回答患者的健康问题;在金融领域,能更好地分析市场数据、预测趋势等。通过针对性的训练,模型在这些特定任务上的准确率和效率会大幅提高。
  2. 适应人类偏好:模型需要与人类的价值观和使用习惯相契合。后训练可以利用人类反馈数据,使模型生成的回答更符合人类的期望,比如更加友好、准确、有条理,避免产生有害或不适当的内容。

三、后训练中的关键技术概念

  1. 监督微调(SFT):这是后训练中常用的方法之一。它需要有标注的数据,比如对于一些问题,已经有了正确的答案或者高质量的回答示例。模型通过学习这些标注数据,调整自身的参数,以提高在类似问题上的回答能力。例如,在训练一个数学问题回答模型时,提供大量的数学题目和详细的解答过程,模型就会学习如何解决这些问题,并在遇到新的数学问题时,更有可能给出正确的答案。
  2. 偏好对齐技术:包括直接偏好优化(DPO)、奖励模型(RM)等。DPO 旨在最大化模型生成的好回答与坏回答之间的差异,通过对比不同回答的质量,让模型学习到如何生成更优质的内容。奖励模型则是通过给不同的回答打分,为模型提供一个评估标准,引导模型朝着获得更高奖励分数的方向发展。例如,在一个文本创作任务中,奖励模型可以根据文本的流畅性、逻辑性、创新性等因素给模型的输出打分,模型会根据这个反馈不断改进自己的创作能力。
  3. 数据合成与处理:数据是后训练的核心要素之一。数据合成技术可以生成新的训练数据,增加数据的多样性和数量。例如,通过一些规则和模板,可以生成大量的对话示例、问题与回答对。同时,数据处理也非常关键,需要对数据进行清洗,去除噪声、重复和错误的数据,还会进行质量评估和分类,确保用于训练的数据是高质量且符合任务需求的。

四、主流模型后训练技术概览

数据合成技术已成为工业界 LLM 后训练的基石,其重要性不言而喻,企业若能率先构建高效的数据合成流水线,将在竞争中抢占先机。LLM - as - judge 和拒绝采样技术也得到广泛应用,如 Llama3、Qwen2 等模型借助这些技术精心构造偏好数据,通过多模型采样与评估,筛选出高质量样本,为模型训练奠定坚实基础。Instag 方法在多个模型报告中频繁现身,其蕴含的创新理念值得深入挖掘与借鉴。

在模型训练过程中,针对代码、多语言、数学推理等重点能力的单独优化成为关键策略。各模型通过多样化手段,如 Llama3 的代码持续预训练与合成数据优化、多语言的混合数据集训练与数据收集策略调整,精准提升各项能力,以满足复杂多变的应用需求。模型合并技术也备受青睐,Llama3、Gemma2 和 Baichuan2 等通过整合不同模型参数,有效平衡性能,规避单一模型的局限性。

强化学习方面,各模型依据自身架构与应用场景,选用不同算法。Llama3 采用迭代式 DPO,Qwen2 结合 offline DPO + online DPO,ChatGLM4 运用 DPO + PPO,Deepseek - V2 和 Baichuan2 采用 GRPO,Nemotron - 4 则使用迭代式 DPO + RPO,AFM 综合多种技术并创新提出 MDLOO,这些算法在优化模型策略、提升性能方面各显神通。

五、典型模型后训练详解

(一)Llama3

  1. 算法创新:Llama3 后训练历经多轮迭代,涵盖 SFT 和 DPO 阶段,充分利用人类注释与合成数据,协同奖励模型与语言模型实现优化。其奖励建模创新地移除边际项、处理相似响应并引入 "edited response",监督微调借助奖励模型筛选数据,DPO 阶段则通过屏蔽格式化 tokens 和增加 NLL loss 正则化等手段稳定训练,同时采用模型平均策略提升性能,迭代过程不断积累优势。
  2. 数据管理与能力提升:后训练数据涵盖人类注释、偏好及 SFT 数据,来源广泛且分类精细。偏好数据经多模型采样与严格注释生成,SFT 数据融合多种渠道并通过拒绝采样优化。在数据处理上,从清洗、修剪到分类、去重,全方位把控质量。在能力提升方面,针对代码、多语言、数学推理等能力,分别采用专业训练、数据合成、拒绝采样、执行反馈、交错推理等技术,实现全方位能力增强。

(二)Qwen2

Qwen2 后训练致力于提升多方面能力,同时确保模型与人类价值观契合,在数据构建上独辟蹊径。协作数据标注通过自动本体提取、指令选择、进化及人工注释,保障数据质量与多样性;自动数据合成运用拒绝采样、执行反馈等策略,应对不同任务挑战,高效合成大规模数据。SFT 与 RLHF 阶段分别精心设置参数与算法,RLHF 的 offline 和 online 训练紧密配合,在线合并优化器有效缓解对齐税问题,提升模型性能。

(三)Nemotron - 4

  1. 奖励模型革新:Nemotron - 4 构建的多属性回归奖励模型 HelpSteer2,基于特定架构精准预测细粒度奖励,在 RewardBench 上成绩斐然,为后续训练提供精准导向。

点击工业界主流大语言模型后训练技术综述:偏好对齐与能力提升查看全文。

相关推荐
NAGNIP1 天前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab1 天前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab1 天前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP1 天前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年1 天前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼1 天前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS1 天前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区1 天前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈1 天前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang1 天前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx