一:分为两种范式
- Feature-based
预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。
代表:word2vec,ELMO
- Fine-tuning
在下游任务时对模型参数进行更新
代表:BERT,GPT
二:GPT模型与BERT对比1.模型结构
GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。
2.预训练方式
GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。
BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。
3.存在的问题
BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。
三:GPT,GPT2,GPT3对比整体趋势,模型越来越大,大力出奇迹。
GPT:Fine-tuning
GPT2:Zero-Shot Learning
GPT3:Few-Shot Learning,但不更新参数
预训练语言模型PLM(课程笔记)
好难怎么办2024-08-26 9:45
相关推荐
老兵发新帖9 分钟前
关于ONNX和pytorch,我们应该怎么做?结合训练和推理方安乐12 分钟前
杂记:对齐研究(AI alignment)ziqi52219 分钟前
第二十四天笔记马猴烧酒.26 分钟前
【JAVA数据传输】Java 数据传输与转换详解笔记方见华Richard39 分钟前
世毫九《认知几何学修订版:从离散概念网络到认知拓扑动力学》人工智能培训1 小时前
基于Transformer的人工智能模型搭建与fine-tuningemma羊羊1 小时前
【AI技术安全】玄同7651 小时前
告别 AgentExecutor:LangChain v1.0+ Agent 模块深度迁移指南与实战全解析ziqi5221 小时前
第二十五天笔记Fxrain1 小时前
[Reading Paper]FFA-Net