大语言模型训练的目标(不同的结构和阶段)

大语言模型(Large Language Models, LLMs)的训练目标是其能力的核心来源,决定了模型如何从海量数据中学习语言规律和知识。以下是其训练目标的分类和详细说明:


一、预训练阶段的核心目标

预训练是LLMs的基础阶段,通过无监督或自监督任务学习通用语言表示。常见目标包括:

1. 自回归语言建模(Autoregressive Language Modeling)
  • 目标:预测下一个词(Token),基于前文生成连贯的序列。
  • 数学形式 :最大化序列的联合概率:
    P ( x 1 , x 2 , . . . , x n ) = ∏ t = 1 n P ( x t ∣ x < t ) P(x_1, x_2, ..., x_n) = \prod_{t=1}^n P(x_t | x_{<t}) P(x1,x2,...,xn)=t=1∏nP(xt∣x<t)
  • 特点
    • 单向上下文:仅利用左侧(或右侧)的上下文信息。
    • 生成能力:擅长文本生成任务(如GPT系列)。
  • 典型模型:GPT-3、LLaMA、PaLM。
2. 自编码语言建模(Autoencoding Language Modeling)
  • 目标:通过掩码(Mask)随机遮盖输入的部分词,模型预测被遮盖的词。
  • 数学形式 :最大化被遮盖词的条件概率:
    P ( x masked ∣ x unmasked ) P(x_{\text{masked}} | x_{\text{unmasked}}) P(xmasked∣xunmasked)
  • 特点
    • 双向上下文:利用全局上下文信息(如BERT)。
    • 理解能力:擅长文本理解任务(分类、问答)。
  • 典型模型:BERT、RoBERTa。
3. 混合目标(Hybrid Objectives)
  • 目标:结合自回归和自编码,或引入其他辅助任务。
  • 常见形式
    • Prefix-LM:前缀部分双向编码,后缀部分自回归生成(如UniLM)。
    • Span Corruption:遮盖连续词块并生成(如T5)。
    • UL2:统一不同训练目标(掩码、前缀、因果解码)。
  • 特点:灵活适应多任务需求,但训练复杂度高。
4. 对比学习(Contrastive Learning)
  • 目标:通过对比正样本和负样本,学习文本表示的区分性。
  • 常见形式
    • SimCSE:通过句子对增强构建对比任务。
    • InfoNCE Loss:拉近相似样本,推开不相似样本。
  • 特点:提升语义相似性建模能力。

二、微调阶段的目标

在预训练后,模型通过特定任务的数据进一步优化:

1. 指令微调(Instruction Tuning)
  • 目标:让模型理解并遵循人类指令。
  • 方法
    • 使用指令-输出对(如"写一首诗→生成诗歌")进行监督训练。
    • 损失函数:最小化生成结果与参考答案的交叉熵。
  • 典型应用:Alpaca、Vicuna、ChatGPT的SFT阶段。
2. 对齐目标(Alignment Objectives)
  • 目标:使模型输出符合人类价值观(安全、无害、有用)。
  • 方法
    • RLHF(基于人类反馈的强化学习):通过奖励模型(Reward Model)优化策略。
    • DPO(直接偏好优化):直接利用偏好数据调整模型输出分布。
  • 典型应用:ChatGPT、Claude。
3. 多任务微调
  • 目标:同时优化多个任务(如翻译、摘要、问答)。
  • 方法:混合多任务数据,通过任务前缀(Task Prefix)区分任务类型。
  • 典型模型:T5、FLAN-T5。

三、训练目标的演进趋势

  1. 从单一目标到统一框架

    • 早期模型(如GPT、BERT)使用单一目标,而现代模型(如T5、UL2)趋向统一框架,适应多任务需求。
  2. 从语言建模到多模态学习

    • 目标扩展至跨模态对齐(如文本-图像对训练:CLIP、Flamingo)。
  3. 从静态训练到动态反馈

    • 引入人类反馈(RLHF)、在线学习(Online Learning)等动态优化机制。

四、不同训练目标的优缺点

训练目标 优点 缺点 适用场景
自回归语言建模 生成能力强,结构简单 无法利用双向上下文 文本生成(GPT)
自编码语言建模 理解能力强,支持双向上下文 生成能力较弱 文本理解(BERT)
对比学习 语义表示区分度高 依赖高质量对比数据 语义相似性任务(SimCSE)
指令微调 提升指令遵循能力 需要大量标注指令数据 对话系统(ChatGPT)
RLHF 输出符合人类偏好 训练复杂,成本高 对齐任务(Claude)

五、总结

大语言模型的训练目标设计是其能力的核心驱动力:

  • 预训练目标决定模型的基础能力(生成、理解、多模态)。
  • 微调目标决定模型的领域适应性(如医疗、法律)。
  • 对齐目标决定模型的安全性和价值观。

未来趋势将更注重目标统一性 (如UL2)、多模态扩展 (如GPT-4V),以及低成本对齐方法(如DPO)。理解这些目标,有助于针对实际需求选择或设计合适的模型架构。

相关推荐
白熊1883 分钟前
【图像生成大模型】Step-Video-T2V:下一代文本到视频生成技术
人工智能·opencv·yolo·计算机视觉·大模型·音视频
立秋67896 分钟前
从零开始:使用 PyTorch 构建深度学习网络
人工智能·pytorch·深度学习
知舟不叙23 分钟前
基于OpenCV的实时文档扫描与矫正技术
人工智能·opencv·计算机视觉·透视变换·实时文档扫描与矫正
Blossom.1181 小时前
基于区块链技术的供应链溯源系统:重塑信任与透明度
服务器·网络·人工智能·目标检测·机器学习·计算机视觉·区块链
说私域1 小时前
O2O电商变现:线上线下相互导流——基于定制开发开源AI智能名片S2B2C商城小程序的研究
人工智能·小程序·开源·零售
Jamence2 小时前
多模态大语言模型arxiv论文略读(七十六)
人工智能·语言模型·自然语言处理
与火星的孩子对话2 小时前
Unity3D开发AI桌面精灵/宠物系列 【六】 人物模型 语音口型同步 LipSync 、梅尔频谱MFCC技术、支持中英文自定义编辑- 基于 C# 语言开发
人工智能·unity·c#·游戏引擎·宠物·lipsync
Data-Miner2 小时前
35页AI应用PPT《DeepSeek如何赋能职场应用》DeepSeek本地化部署与应用案例合集
人工智能
KangkangLoveNLP2 小时前
Llama:开源的急先锋
人工智能·深度学习·神经网络·算法·机器学习·自然语言处理·llama
白熊1882 小时前
【通用智能体】Serper API 详解:搜索引擎数据获取的核心工具
人工智能·搜索引擎·大模型