预训练语言模型PLM（课程笔记）

好难怎么办2024-08-26 9:45

一：分为两种范式

Feature-based

预训练的模型参数（word-enbeddings）作为下游任务的输入，不更新预训练参数。

代表：word2vec，ELMO

Fine-tuning

在下游任务时对模型参数进行更新

代表：BERT，GPT
二：GPT模型与BERT对比

1.模型结构

GPT是第一个基于transformer架构的PLM，使用的是transformer的Decoder；而Bert使用的是transformer的Encoder，相比于GPT结构更简单。

2.预训练方式

GPT：自回归语言模型预训练（预测下一个词），单向的，更适合生成式任务。

BERT：掩码语言模型（MLM）和下一句预测（NSP），双向的，更适合文本理解的任务。

3.存在的问题

BERT用了MLM，pre-training和fine-tuning不能统一起来，且训练效率比较低。
三：GPT，GPT2，GPT3对比

整体趋势，模型越来越大，大力出奇迹。

GPT：Fine-tuning

GPT2：Zero-Shot Learning

GPT3：Few-Shot Learning，但不更新参数

上一篇：OpenCV几何图像变换（3）计算透视变换矩阵函数getPerspectiveTransform()的使用

下一篇：JZ12 矩阵中的路径