主流大语言模型的损失函数异同

一、核心损失函数类型

1. 自回归语言模型损失(CLM Loss)

代表模型:GPT 系列、LLaMA、Mistral、Qwen 等

复制代码
L = -∑ log P(xₜ | x₁, x₂, ..., xₜ₋₁)
  • 本质:标准交叉熵损失,预测下一个 token
  • 特点:单向注意力,适合生成任务

2. 掩码语言模型损失(MLM Loss)

代表模型:BERT、RoBERTa

复制代码
L = -∑ log P(xᵢ | x_context)  (i ∈ masked positions)
  • 本质:随机掩盖 15% token,预测被掩盖部分
  • 特点:双向注意力,适合理解任务

3. Seq2Seq 损失

代表模型:T5、BART、GLM

  • 结合编码器-解码器结构
  • T5 使用 span corruption(掩盖连续片段)

二、对齐阶段的损失函数

方法 损失函数 特点
SFT 交叉熵 监督微调,模仿人类回答
RLHF (PPO) 策略梯度 + KL 惩罚 需要奖励模型,训练复杂
DPO 隐式奖励的偏好损失 无需单独训练 RM,更稳定
ORPO 对比偏好损失 将 SFT 和偏好对齐合一

DPO 损失公式

复制代码
L_DPO = -log σ(β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)))

三、主要异同总结

相同点

1.底层都基于交叉熵:无论是 CLM 还是 MLM,本质都是最大化正确 token 的概率

2.都使用 Teacher Forcing:训练时使用真实标签作为输入

3.都有 token 级别的粒度:损失在 token 层面计算后聚合

不同点

维度 GPT 类 BERT 类 T5 类
预测方向 单向(左→右) 双向 编码双向+解码单向
预测目标 下一个 token 被掩盖 token 被损坏片段
注意力 Causal Mask 全注意力 混合
适用场景 生成 理解 通用

四、前沿改进

1.长度归一化:避免模型偏好短回复

2.标签平滑(Label Smoothing):防止过拟合

3.Focal Loss 变体:处理困难样本

4.混合精度下的损失缩放:数值稳定性

相关推荐
墨染天姬2 小时前
【AI】MCP模型上下文协议
人工智能
半页码书2 小时前
2026年哪个AI改简历最好用
人工智能·chatgpt·面试·求职招聘·职场发展·远程工作
枫叶林FYL2 小时前
【自然语言处理 NLP】前沿架构与多模态 6.1.1.4 混合架构(Mamba-Transformer Hybrid)
人工智能·机器学习·自然语言处理
IT 行者2 小时前
Web逆向工程AI工具:Integuru,YC W24孵化的API逆向神器
人工智能·ai编程·web逆向·mcp
这张生成的图像能检测吗2 小时前
(论文速读)RFD-LLM:用大语言模型诊断列车故障
人工智能·计算机视觉·故障诊断
老刘干货2 小时前
Prompt工程全解·第一篇:打破壁垒——从“搜索思维”到“指令思维”的认知重塑
人工智能·技术人
小橙子学AI2 小时前
AI 编程的 Prompt 工程:如何写出高质量指令
人工智能·prompt
盘古开天16662 小时前
Gemma 4开源革命:看图听音频+强推理,31B小参数模型比肩GPT-5-high,完全免费可商用(手机可部署)
人工智能·开源·gemma4·开源本地部署
Learn Beyond Limits2 小时前
神经机器翻译|Neural Machine Translation(NMT)
人工智能·神经网络·机器学习·ai·自然语言处理·nlp·机器翻译