【大语言模型】大语言模型——核心概念(预训练、SFT监督微调、RLHF/RLAIF对齐、Token、Embedding、上下文窗口)

文章目录

大语言模型核心概念

本文围绕LLM全生命周期的核心概念,构建**「底层基础表征与能力边界」+「模型能力构建与人类价值对齐」** 两大核心板块的完整知识体系,覆盖定义、原理、作用、技术细节、常见误区与行业实践,形成逻辑闭环。

一、总纲:核心概念的逻辑定位

所有概念共同构成了现代大语言模型从数据输入→基础能力构建→指令能力唤醒→人类价值对齐→推理落地的全链路核心框架,彼此环环相扣:

  • 底层基础:Token、Embedding、上下文窗口,是模型处理文本的最小单元、语义载体与能力边界,是所有训练与推理的前提;
  • 上层流程:预训练→SFT监督微调→RLHF/RLAIF对齐,是模型从无到有、从通用到可控、从能用好用的完整训练流水线,前序环节决定后序环节的能力上限。

二、板块一:LLM底层基础表征与能力边界

2.1 Token(词元)

核心定义

Token是大语言模型处理文本的最小基本运算单位,是自然语言文本到模型可识别的离散符号的转换结果,粒度介于字符与单词之间,转换过程由分词器(Tokenizer)完成。

核心原理

通过分词算法将原始文本拆分为Token序列,解决自然语言的词汇多样性、未登录词(OOV)问题,主流分词算法包括:

  • BPE(字节对编码):GPT系列通用方案,通过迭代合并高频出现的字节对,构建固定大小的词汇表;
  • WordPiece:BERT等Encoder模型采用,基于子词出现的概率进行合并;
  • SentencePiece:LLaMA、Qwen等多语言模型采用,支持无空格语言(中文、日文)的端到端分词,无需提前分词。
核心作用
  1. 实现自然语言到模型可处理离散符号的转换,是文本输入的第一道关口;
  2. 平衡序列长度与计算效率,相比单字符分词大幅缩短序列长度,降低计算成本;
  3. 兼容多语言、专业术语、代码、特殊符号等复杂文本场景,解决OOV问题。
关键技术细节
  • 词汇表规模:主流模型词汇表大小在3万~10万之间(如LLaMA2为32000,GPT-3为50257);
  • 特殊Token:包含(序列开始)、(序列结束)、(序列填充)、(未知词元)等,是模型理解序列边界的核心;
  • 粒度差异:1个汉字约对应12个Token,1个英文单词约对应11.3个Token,代码、专业术语的Token粒度随分词表差异较大。
常见误区
  1. 把Token等同于汉字/单词:二者并非一一对应,错误估算会导致上下文窗口溢出;
  2. 忽略分词器的一致性:微调/推理时必须使用与预训练完全一致的Tokenizer,否则会导致语义理解错误、灾难性遗忘;
  3. 无视分词对性能的影响:分词错误会直接导致模型理解偏差,尤其在专业领域、多语言场景。
行业实践
  • 多语言场景优先选用SentencePiece分词器,保证跨语言兼容性;
  • 垂直领域微调时,可在原有词汇表中补充领域专属术语,提升模型理解能力;
  • 长文本场景优先选择压缩率更高的分词方案,降低序列长度与计算成本。

2.2 Embedding(嵌入/向量表征)

核心定义

Embedding是将离散的Token符号映射到高维连续向量空间的语义表征形式,是模型能够理解、计算、对比文本语义的核心载体,本质是用向量的空间关系表征语言的语义关联。

核心原理

解决one-hot编码的维度爆炸、无语义关联的核心缺陷,通过神经网络的端到端学习,让语义、语法、属性相似的Token,在向量空间中拥有更近的距离。主流嵌入类型分为三类:

  1. Token Embedding(词元嵌入):每个Token对应唯一的高维向量,编码核心语义信息;
  2. Position Embedding(位置嵌入):Transformer无时序感知能力,必须通过位置嵌入编码Token在序列中的位置信息,主流方案为RoPE旋转位置编码(LLaMA、Qwen等通用)、ALiBi线性位置偏置;
  3. Segment Embedding(段落嵌入):用于区分序列中的不同段落/句子对,多见于Encoder-only模型。
核心作用
  1. 实现离散符号到可微分计算的转换,是Transformer模型进行数值运算的前提;
  2. 编码文本的语义、语法、位置、属性等多维信息,是模型理解语言的核心;
  3. 实现跨模态语义对齐(文本、图像、音频),是多模态大模型、RAG检索增强生成的核心基础。
关键技术细节
  • 嵌入维度:与模型参数量强相关,LLaMA2-7B为4096维,GPT-3为12288维,维度越高,语义表征能力越强,同时计算成本越高;
  • 表征层级:分为Token级(单字/词)、句子级、文档级,RAG场景主要使用句子/文档级嵌入(如bge、m3e、Cohere嵌入模型);
  • 空间特性:嵌入向量的余弦相似度、欧式距离,直接对应文本的语义相似度。
常见误区
  1. 只关注Token Embedding,忽略位置嵌入的核心作用:无位置嵌入的Transformer等价于词袋模型,完全丧失时序与长文本理解能力;
  2. 认为嵌入维度越高越好:维度过高会导致过拟合、计算成本指数级上升,需在性能与效率间平衡;
  3. 混淆Token嵌入与文本嵌入:前者是单Token的基础表征,后者是句子/文档的聚合语义表征,二者应用场景完全不同。
行业实践
  • RAG场景优先选用领域适配的句子级嵌入模型,而非通用LLM的Token嵌入;
  • 轻量化微调时,可冻结Embedding层,大幅降低计算量,同时避免破坏预训练习得的通用语义表征;
  • 长文本场景优先选用支持超长上下文的位置编码方案(RoPE动态扩展、ALiBi),保证长序列的位置表征有效性。

2.3 上下文窗口(Context Window)

核心定义

上下文窗口(又称上下文长度),是LLM在单次训练/推理过程中,能够同时处理、依赖并记住的最大Token序列长度,决定了模型单次交互可承载的信息上限与长文本理解能力边界。

核心原理

核心约束来自Transformer自注意力机制的计算特性:原生自注意力的计算复杂度为O(n²)(n为Token序列长度),序列长度翻倍,计算与显存需求翻4倍。上下文窗口的大小,本质是模型的注意力机制、位置编码、显存优化、训练策略共同决定的序列长度处理上限。

核心作用
  1. 决定模型的长文本处理能力:包括长文档问答、合同审核、代码全量生成、书籍创作等场景;
  2. 决定单次交互的信息承载量:RAG场景中可塞入的参考文档数量、多轮对话中可保留的历史对话长度,均受窗口大小限制;
  3. 影响模型的推理连贯性:窗口越大,模型可依赖的前文信息越多,长文本生成、多轮对话的连贯性越强。
关键技术细节
  • 行业演进:GPT-3为2048 Token,GPT-4为8K/32K/128K,Claude 3支持200K+,行业顶级模型已实现百万级上下文窗口;
  • 长窗口核心技术:FlashAttention(显存与速度优化)、稀疏注意力/滑动窗口注意力(降低计算复杂度)、线性注意力(将复杂度降至O(n))、RoPE动态扩展、ALiBi位置编码;
  • 有效上下文窗口:标称窗口大小≠实际可用窗口,多数模型超长窗口下会出现注意力衰减,尾部信息的有效利用率大幅下降,需通过LongBench等基准测试验证有效长度。
常见误区
  1. 标称窗口=有效可用窗口:盲目追求大窗口,忽略长文本下的性能衰减,导致实际使用效果极差;
  2. 窗口越大越好:窗口大小与推理成本、延迟呈指数级正相关,需匹配场景需求,而非盲目最大化;
  3. 忽略窗口占用:系统提示词、历史对话、RAG参考文档均会占用窗口额度,会压缩用户输入与模型输出的可用空间。
行业实践
  • 长文档场景优先选用经过长文本基准测试验证的模型,而非仅看标称窗口大小;
  • 推理时通过滑动窗口、前文摘要压缩、冗余信息过滤,优化窗口占用,提升有效信息密度;
  • 部署时根据场景选型:日常对话用8K~32K窗口,长文档审核用128K+窗口,平衡性能与成本。

三、板块二:LLM能力构建与人类价值对齐流水线

本板块严格遵循LLM的标准训练流程,按预训练→SFT监督微调→RLHF/RLAIF对齐的逻辑递进,形成完整的能力构建链路。

3.1 预训练(Pre-Training)

核心定义

预训练是LLM在海量无标注通用文本语料 上进行的自监督学习过程,是模型获得通用语言理解、世界知识、逻辑推理、代码生成等基础能力的核心阶段,产出的模型称为基础模型(Base Model),是后续所有微调、对齐的根基。

核心原理

核心是自监督学习任务,无需人工标注,通过文本自身构造监督信号,主流方案分为两类:

  1. 因果语言模型(CLM) :Decoder-only架构(GPT、LLaMA、Qwen等主流LLM通用)的核心预训练任务,即下一个Token预测:给模型输入前文序列,让模型预测下一个Token,通过交叉熵损失优化模型参数,让模型习得语言的统计规律、语义逻辑与世界知识;
  2. 掩码语言模型(MLM):Encoder-only架构(BERT)的核心任务,随机掩码序列中的部分Token,让模型预测被掩码的内容,更适合语义理解类任务。
核心作用
  1. 构建模型的通用能力天花板:预训练的语料质量、规模、算力投入,直接决定了模型的能力上限,后续微调仅能激发能力,无法凭空创造预训练未习得的能力;
  2. 让模型习得通用语言规则、世界知识、逻辑推理、代码生成、跨语言理解等基础能力;
  3. 为后续的指令微调、人类价值对齐提供高质量的基础模型,无优质预训练的微调完全无效。
关键技术细节
  • 预训练三要素:算力、数据、模型架构,三者遵循Scaling Laws(缩放定律):模型性能随参数量、数据量、计算量的增加,呈幂律增长;
  • 数据要求:语料规模达万亿级Token,覆盖书籍、网页、论文、代码、对话等多元场景,需经过严格的清洗、去重、去毒、过滤低质量内容,语料质量远重于数量
  • 算力要求:主流开源7B模型预训练需数百张A100/H100显卡,千亿级参数模型需千卡级集群,训练周期长达数月;
  • 训练策略:分布式训练、混合精度训练、梯度累积、动态批处理、Checkpoint定期保存,保证训练的稳定性与效率。
常见误区
  1. 认为微调可以弥补预训练的不足:预训练是模型的根基,微调仅能唤醒能力、对齐格式,无法弥补预训练的知识与能力缺陷;
  2. 只看参数量,忽略预训练质量:大参数量但低质量预训练的模型,性能远不如小参数量、高质量预训练的模型;
  3. 认为基础模型可以直接对话:Base Model仅具备文本续写能力,无指令遵循与对话能力,必须经过SFT微调才能实现人机交互。
行业实践
  • 预训练语料需严格控制数据配比,提升代码、高质量书籍的占比,可显著增强模型的逻辑推理能力;
  • 严格遵循缩放定律分配算力、参数量、数据量,避免资源浪费;
  • 预训练过程中需持续监控模型的困惑度(Perplexity)、下游任务性能,及时调整训练策略。

3.2 SFT监督微调(Supervised Fine-Tuning)

核心定义

SFT是在预训练完成的Base Model基础上,使用高质量的人工标注指令-答案对(Instruction-Response) 进行有监督微调,让模型从"文本续写模型"转变为"可交互的指令遵循模型",是唤醒模型人机交互能力的核心环节。

核心原理

沿用预训练的下一个Token预测任务,将「指令+用户输入」作为前文序列,将「人工标注的标准答案」作为目标输出,通过交叉熵损失优化模型参数,让模型学习到:收到人类指令时,应该输出什么格式、什么内容、什么范式的回答,包括指令理解、对话格式、专业领域规范、多轮对话逻辑等。

核心作用
  1. 唤醒预训练模型的指令遵循能力,让模型听懂并执行人类的各类指令;
  2. 对齐模型的输出格式与交互范式,让模型适配对话、代码生成、结构化输出、多轮对话等场景;
  3. 适配垂直领域场景,注入领域专属的知识与回答规范,实现模型的行业化落地;
  4. 为后续的RLHF/RLAIF对齐提供高质量的初始模型,无SFT的RLHF完全无效。
关键技术细节
  • 数据核心要求:质量远大于数量,主流开源模型的SFT数据量在数千到数十万条,核心要求是高质量、多样性、指令覆盖度,涵盖开放问答、创作、代码、逻辑推理、多轮对话等场景;
  • 微调范式:
    • 全参数微调:微调模型全部参数,效果最优,但算力要求高,易出现灾难性遗忘;
    • 参数高效微调(PEFT):主流方案为LoRA/QLoRA,仅微调模型的少量适配器参数,算力要求低、训练速度快,不易破坏预训练通用能力,是行业通用方案;
  • 训练规范:对话模板必须统一(如LLaMA的[INST] 指令 [/INST] 回答 ),学习率远低于预训练(1e-51e-4),训练轮数(Epoch)极少(15轮),避免过拟合。
常见误区
  1. 用海量低质量数据做SFT:垃圾数据会导致模型灾难性遗忘,通用能力下降,出现胡编乱造、格式混乱等问题;
  2. 认为SFT可以注入预训练没有的新知识:SFT的核心是唤醒能力、对齐格式,注入大规模新知识的能力有限,优先选择持续预训练或RAG方案;
  3. 训练轮数过多:导致模型过拟合,只会背诵SFT数据集,泛化能力大幅下降;
  4. 忽略对话模板的一致性:推理时使用的对话模板与SFT训练时不一致,会导致模型性能暴跌。
行业实践
  • SFT数据优先保证人工标注的高质量,而非盲目追求数量;
  • 垂直领域微调优先选用LoRA/QLoRA方案,平衡效果与成本,同时保留模型通用能力;
  • 训练过程中持续监控验证集损失,提前停止训练,避免过拟合;
  • 多轮对话SFT必须严格遵循对话模板,保证模型习得正确的多轮交互逻辑。

3.3 RLHF/RLAIF 人类价值对齐

核心定位

对齐环节是LLM训练流水线的最后一步,在SFT模型基础上,解决模型输出不符合人类偏好的问题(如有害内容、胡编乱造、冗长、价值观偏差),让模型的输出不仅能遵循指令,更能符合人类的偏好、价值观、安全规范,实现从"能用"到"好用、安全"的跃迁。

3.3.1 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)
核心定义

RLHF是通过人类对模型输出的偏好标注,训练奖励模型(RM),再通过近端策略优化(PPO)算法,让SFT模型的输出最大化符合人类偏好的奖励,是闭源大模型主流的对齐方案。

核心原理(标准三阶段流程)
  1. 第一阶段:SFT模型准备:完成SFT监督微调,得到高质量的指令遵循模型,作为强化学习的初始策略模型(Actor);
  2. 第二阶段:奖励模型(RM)训练:针对同一指令,让SFT模型生成多个不同的回答,由人类标注员对回答进行偏好排序(如A优于B,B优于C),用排序数据训练奖励模型,让RM学会给符合人类偏好的输出打高分,不符合的打低分;
  3. 第三阶段:PPO强化学习微调:以SFT模型为初始策略,RM为奖励函数,通过PPO算法优化策略模型,让模型生成的内容获得最高奖励;同时加入KL散度约束,避免模型为了拿高分偏离SFT模型过远,出现模式崩溃(如输出无意义的高分内容)。
核心作用
  1. 对齐人类偏好,让模型输出更有用、更相关、更简洁、更符合人类交互习惯;
  2. 提升模型的安全性,大幅减少有害、偏见、虚假、违规内容的生成;
  3. 降低模型的"幻觉"概率,让模型更倾向于输出真实、有据可依的内容。
关键技术细节
  • 偏好标注:成对排序标注优于绝对打分,可大幅降低人类标注的个体偏差;
  • 奖励模型:通常用SFT模型初始化,最终输出标量奖励值,训练核心是排序损失;
  • 优化方案:主流采用PPO算法,配套KL散度惩罚、价值函数裁剪、混合预训练梯度,避免模式崩溃与奖励黑客(模型找到RM漏洞,输出无意义但高分的内容);
  • 简化方案:DPO(直接偏好优化)、IPO、KTO等,无需训练RM与PPO,直接用偏好数据微调模型,大幅简化流程,稳定性更强,已成为行业主流替代方案。
常见误区
  1. 认为RLHF能提升模型的知识与推理能力:RLHF不提升模型的基础能力,仅对齐输出的偏好与安全性,无法让模型"变聪明";
  2. 颠倒SFT与RLHF的顺序:Base Model直接做RLHF完全无效,必须先完成SFT;
  3. 忽略RLHF的不稳定性:PPO训练极易出现模式崩溃、奖励黑客、模型通用能力下降(对齐税);
  4. 认为RLHF是必选环节:小模型、垂直场景中,高质量SFT即可满足需求,RLHF成本高,并非必选。
3.3.2 RLAIF(Reinforcement Learning from AI Feedback,基于AI反馈的强化学习)
核心定义

RLAIF是RLHF的低成本替代方案,用能力强的大模型(如GPT-4o、Claude 3)替代人类标注员,生成偏好标注数据,完成奖励模型训练与PPO优化,解决RLHF人工标注成本高、周期长、一致性差的核心痛点,是开源模型的主流对齐方案。

核心原理

整体流程与RLHF完全一致,唯一核心差异是:将人类标注的偏好排序,替换为大模型的偏好排序。通过精心设计的Prompt,让大模型对同一指令的多个输出进行打分、排序并给出理由,用AI生成的高质量偏好数据训练RM,再进行PPO优化;主流简化方案为AI反馈+DPO,无需RM与PPO,直接完成对齐,成本更低、迭代更快。

核心作用
  1. 极大降低对齐的成本与周期,无需大规模人工标注团队,仅需API调用成本,数天即可完成一轮对齐;
  2. 提升标注一致性,避免人类标注的个体差异、标注疲劳、标准不统一等问题;
  3. 降低对齐的技术门槛,让中小团队、开源项目也能完成高质量的模型对齐;
  4. 可快速迭代对齐标准,适配不同场景、不同价值观的对齐需求。
关键技术细节
  • 标注模型选型:必须选用能力强、对齐效果好的大模型,标注模型的能力下限,决定了对齐效果的上限;
  • Prompt工程:必须明确对齐标准(有用性、无害性、相关性、简洁性、合规性),保证AI标注的稳定性与一致性;
  • 数据校验:通过多模型交叉标注、人工抽检,过滤不一致、低质量的标注样本;
  • 主流方案:AI反馈+DPO,跳过RM与PPO,流程极简、稳定性强、效果接近甚至超越传统RLHF。
常见误区
  1. 认为RLAIF效果不如RLHF:大量实践与研究表明,高质量RLAIF的对齐效果与人类专家标注的RLHF相当,甚至因标注一致性更高而效果更优;
  2. 用弱模型做RLAIF:用能力弱于待对齐模型的AI做标注,会导致对齐效果差,甚至把模型带偏;
  3. 认为RLAIF无需人工参与:仍需人工设计标注Prompt、定义对齐标准、抽检数据、管控安全风险,仅无需大规模人工标注。
3.3.3 RLHF与RLAIF核心对比
对比维度 RLHF(基于人类反馈) RLAIF(基于AI反馈)
标注主体 人类标注员 高性能大语言模型
核心成本 极高(人工团队、周期长、管理成本) 极低(仅API调用成本,周期短)
标注一致性 低(个体差异、标注疲劳、标准偏差) 高(固定Prompt,标准统一,偏差极小)
迭代速度 慢(标注周期数周~数月) 快(数天即可完成一轮对齐迭代)
效果上限 高(顶级人类专家标注的上限更高) 高(顶级大模型标注效果接近人类专家)
适用场景 头部闭源大模型、强安全合规要求场景 开源模型、中小团队、快速迭代的垂直场景
行业实践
  • 开源模型、中小团队优先选用RLAIF+DPO方案,平衡成本、效果与迭代速度;
  • 对齐前必须先明确定义"好的输出"标准,再设计标注规则,避免对齐目标模糊;
  • 优先用DPO替代传统PPO,流程更简单、稳定性更强,对齐税更低;
  • 对齐过程中需持续监控模型的通用能力,避免过度对齐导致模型"变笨";
  • 安全对齐必须配套红队测试,持续迭代优化,规避有害内容生成风险。

四、全体系逻辑闭环与核心认知

  1. 底层决定上层:Token、Embedding、上下文窗口构成了模型的底层基础,直接决定了预训练、微调、对齐的效果上限;
  2. 预训练定根基:预训练决定了模型的通用能力天花板,SFT、RLHF/RLAIF仅能唤醒能力、对齐输出,无法突破预训练的能力边界;
  3. 流程不可逆:必须严格遵循「预训练→SFT→RLHF/RLAIF」的流程,前序环节的缺陷,无法通过后序环节弥补;
  4. 落地优先匹配场景:无需盲目追求大参数量、超长窗口、全流程训练,需根据场景需求,选择对应的技术方案,平衡性能与成本。

五、行业发展趋势

  1. 底层表征:分词向多模态、多语言统一发展,Embedding向跨模态通用语义空间演进,上下文窗口向"超长有效长度+低计算成本"优化;
  2. 训练流程:预训练向高质量、轻量化、多模态发展,SFT向参数高效、垂直领域适配发展,对齐向简化流程(DPO等)、RLAIF为主、自动化对齐演进;
  3. 全链路优化:从预训练到微调、对齐、推理的全链路协同优化,大幅降低落地成本,提升场景适配能力。
相关推荐
肌肉娃子2 小时前
一次 Doris FE CPU 飙高的排障实录:从怀疑 fe.conf 到定位 MyBatis 超长批量 UPSERT
后端
代码地平线2 小时前
C语言实现堆与堆排序详解:从零手写到TopK算法及时间复杂度证明
c语言·开发语言·算法
腥辣甜咸2 小时前
队列?不妨试试pgmq
后端
坐吃山猪2 小时前
Python04_序列和字符串
python
我叫张土豆2 小时前
我把 Spring Boot 升级到 4.0.2 后,顺手重构了整个 AI 脚手架:删模块、加 Skills Agent、补 Resume RAG
人工智能·spring boot·重构
神奇小汤圆2 小时前
面试官:为什么要尽量避免使用 IN 和 NOT IN 呢?
后端
炘爚2 小时前
LeetCode(两两交换链表中的节点)
算法·leetcode·链表
wsoz2 小时前
Leetcode矩阵-day7
c++·算法·leetcode·矩阵
念越2 小时前
算法每日一题 Day01|双指针解决移动零问题
java·算法·力扣