主流大语言模型的损失函数异同

一、核心损失函数类型

1. 自回归语言模型损失(CLM Loss)

代表模型:GPT 系列、LLaMA、Mistral、Qwen 等

复制代码
L = -∑ log P(xₜ | x₁, x₂, ..., xₜ₋₁)
  • 本质:标准交叉熵损失,预测下一个 token
  • 特点:单向注意力,适合生成任务

2. 掩码语言模型损失(MLM Loss)

代表模型:BERT、RoBERTa

复制代码
L = -∑ log P(xᵢ | x_context)  (i ∈ masked positions)
  • 本质:随机掩盖 15% token,预测被掩盖部分
  • 特点:双向注意力,适合理解任务

3. Seq2Seq 损失

代表模型:T5、BART、GLM

  • 结合编码器-解码器结构
  • T5 使用 span corruption(掩盖连续片段)

二、对齐阶段的损失函数

方法 损失函数 特点
SFT 交叉熵 监督微调,模仿人类回答
RLHF (PPO) 策略梯度 + KL 惩罚 需要奖励模型,训练复杂
DPO 隐式奖励的偏好损失 无需单独训练 RM,更稳定
ORPO 对比偏好损失 将 SFT 和偏好对齐合一

DPO 损失公式

复制代码
L_DPO = -log σ(β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)))

三、主要异同总结

相同点

1.底层都基于交叉熵:无论是 CLM 还是 MLM,本质都是最大化正确 token 的概率

2.都使用 Teacher Forcing:训练时使用真实标签作为输入

3.都有 token 级别的粒度:损失在 token 层面计算后聚合

不同点

维度 GPT 类 BERT 类 T5 类
预测方向 单向(左→右) 双向 编码双向+解码单向
预测目标 下一个 token 被掩盖 token 被损坏片段
注意力 Causal Mask 全注意力 混合
适用场景 生成 理解 通用

四、前沿改进

1.长度归一化:避免模型偏好短回复

2.标签平滑(Label Smoothing):防止过拟合

3.Focal Loss 变体:处理困难样本

4.混合精度下的损失缩放:数值稳定性

相关推荐
后端小肥肠10 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao10 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理
MomentYY10 小时前
Temperature:AI 的“脑洞旋钮”
前端·llm·ai编程
程序员cxuan11 小时前
一句话,让你用上 GPT-5.6
人工智能·后端·程序员
机器之心11 小时前
AI圈刚开始谈Loop Engineering,两位95后博士已经盯上了人类闭环数据
人工智能·openai
澄旭11 小时前
一文讲清 MCP:AI 应用连接外部世界的标准协议
人工智能
机器之心11 小时前
不只DeepSeek,阶跃等开源JetSpec:大模型解码提速近10倍
人工智能·openai
moMo11 小时前
当LLM学会"递纸条",AI是如何调用工具的
人工智能
拾年27511 小时前
大模型的"聪明"从哪来?聊聊 AI 数据集的那些事儿
人工智能·深度学习·机器学习