Bert和GPT区别 - 技术栈

BERT（Bidirectional Encoder Representations from Transformers）和 GPT（Generative Pre-trained Transformer）都基于 Transformer 架构，但在设计目标、预训练任务和应用场景上有很大区别：

BERT：双向编码器（Bidirectional）
- 在 Transformer 的 Encoder 部分堆叠多层，将句子中所有位置同时看作上下文，能够从左右两侧同时获取语义信息。
GPT：单向解码器（Unidirectional）
- 基于 Transformer 的 Decoder 部分，仅从左到右（或右到左，取决于实现）地顺序生成，对下一个 token 做预测，天然适合生成任务。

模型	预训练任务	作用
BERT	Masked Language Model (MLM)	随机 mask 输入中的若干 token，预测它们是什么； Next Sentence Prediction (NSP)	判断两句话是否相邻，增强句间理解。
GPT	Autoregressive Language Modeling (ALM)	给定前文，预测下一个 token。

BERT：
- 输入：整段文本（可含[CLS] + 文本A + [SEP] + 文本B + [SEP]）
- 输出：每个位置的表示向量（也会用 [CLS] 作为整句表示）
GPT：
- 输入：前缀文本
- 输出：下一个 token 分布，用于逐步生成新文本