BERT系列模型 - 技术栈

下面是关于 BERT、GPT、ELMo 模型的深入介绍，包括结构、训练方式、特点、对比分析和各自的系列模型。这些内容覆盖了 NLP 中主流预训练模型的精髓，适用于学习迁移学习、上下游任务建模以及理解 Transformer 架构演进。

BERT 是一种 双向 Transformer 编码器结构，通过"掩码语言模型（MLM）"和"下一句预测（NSP）"的任务进行预训练，目标是捕捉词语的上下文依赖关系。

输入表示：
- Token Embeddings（分词）
- Segment Embeddings（句子对表示）
- Position Embeddings（位置编码）
模型结构：
- 使用纯 Transformer Encoder 堆叠（如 BERT-base 是 12 层）
- 输出为每个 token 的上下文表示（也称 contextual embedding）
预训练任务：
1. Masked Language Model（MLM）
  
  随机 mask 掉输入中 15% 的 token，模型预测被遮盖的词。
2. Next Sentence Prediction（NSP）
  
  给定句子 A，预测句子 B 是否是 A 的下一句。

css 复制代码

[CLS] 我喜欢自然语言处理 [SEP] 你呢？ [SEP]

GPT（OpenAI）是基于 Transformer Decoder 堆叠结构的单向语言模型 ，主要用于文本生成任务，采用经典的 自回归训练方式（Autoregressive LM）。

对比维度	BERT	GPT
模型结构	Transformer Encoder（双向）	Transformer Decoder（单向）
上下文建模	双向（Masked）	单向（左到右）
预训练任务	MLM + NSP	自回归语言建模（LM）
应用方向	分类、QA、NER、语义理解任务	文本生成、续写、对话生成等
微调方式	增加任务头并 fine-tune 全模型	Prompt/Fine-tune/Few-shot 多种方式
生成能力	弱	强

以下是 BERT 系列模型中主流改进版本：

ELMo 是一种基于双向 LSTM 的上下文词向量模型，在 BERT 之前一度成为 NLP 领域的突破性成果。

模型	架构	上下文建模方式	预训练任务	应用方向
BERT	Transformer Encoder	双向	MLM + NSP	分类、抽取、QA
RoBERTa	Encoder（改进）	双向	MLM	全面增强版 BERT
GPT	Transformer Decoder	单向	自回归 LM	文本生成、对话
ELMo	BiLSTM	双向（分开）	双向语言建模	词向量、下游特征提取