三种预训练模型架构GPT、BERT、T5

文本预测头（Text Prediction） ：输出词表大小的概率分布（经Softmax获得），用于下一个词生成，预训练阶段使用。
任务分类器头（Task Classifier） ：提取特定位置表示（如最后一个token）对整个文本分类，用于微调阶段适配下游任务（如情感分析、话题识别）。

GPT的预训练采用生成式语言建模 （根据前文预测下一个词），在无监督文本上进行自监督学习，无需人工标注，大幅降低数据成本。

其Transformer架构 通过全局自注意力机制 有效建模长距离依赖，同时并行计算特性提升了训练效率，使得大规模语料预训练成为可能。

GPT的微调阶段是在预训练基础上，使用有监督数据 对模型进行端到端优化，使其适应具体任务，

实现知识迁移：

三、BERT

BERT（Bidirectional Encoder Representations from Transformers）核心在于采用Transformer编

码器结构，通过双向自注意力机制，在建模每个token时同时整合左右两侧的上下文信息，从而获

得更准确、丰富的语义表示。

BERT的每个输入Token表示由以下三部分嵌入相加而成：

在BERT的输入序列中，还包含两个特殊符号：

和原始Transformer相同

根据下游任务类型，BERT接入不同的任务输出头：

Token-Level任务 （如命名实体识别）：使用每个位置对应的输出表示进行分类。
Sequence-Level任务 （如文本分类、句子对分类）：使用特殊Token [CLS] 的输出表示（输入时位于序列开头），该向量专门用于汇总整个序列的语义信息。

BERT的预训练包含两个核心任务：

掩码语言模型（MLM） ：为实现双向建模，随机遮盖15%的token进行预测。遮盖策略为：80%替换为[MASK]，10%替换为随机词，10%保持不变。这使得模型能够融合左右两侧上下文进行预测。
下一句预测（NSP）：为理解句间关系，模型需判断第二句是否为第一句的真实后续句。其中50%为正例（相邻句子），50%为反例（随机采样）。

在预训练完成后，BERT可通过少量微调适配多种下游任务（如文本分类、句子匹配、问答系统、

序列标注等）。微调时，模型主体结构保持不变，仅在顶部添加一个任务特定的输出层，并使用下

游任务数据对整个模型进行端到端训练。

T5（Text-to-Text Transfer Transformer）首次在完整的Transformer编码器-解码器结构上实现预训

练语言模型。其核心思想是将所有自然语言处理任务统一表示为"文本到文本"的转换问题。即无论

任务是文本分类、问答还是翻译，模型的输入和输出均是自然语言形式的字符串。

T5模型的预训练目标称为Corrupted Span Prediction（破坏跨度预测），具体过程如下：