
BERT(双向编码器):
预训练任务:
- 掩码语言模型(MLM) :随机掩盖15%的token,其中:
- 80%替换为[MASK]
- 10%替换为随机token
- 10%保持原样
- 下一句预测(NSP):判断两个句子是否连续(后续版本已移除)
训练特点:
- 使用双向Transformer编码器
- 同时利用左右上下文信息
- 适合理解类任务:分类、标注、相似度计算
GPT(自回归解码器):
预训练任务:
- 因果语言模型(CLM):给定前文预测下一个token
- 只能利用左侧上下文,无法看到右侧信息
训练特点:
- 使用单向Transformer解码器(带掩码注意力)
- 通过next token prediction训练
- 适合生成类任务:文本生成、对话、创作
关键差异:
- BERT:双向理解,更适合文本表示学习
- GPT:单向生成,更适合序列生成任务
- 现代大模型(如GPT-3/4)通过scale up和指令微调弥补了单向性的限制