一:分为两种范式
- Feature-based
预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。
代表:word2vec,ELMO
- Fine-tuning
在下游任务时对模型参数进行更新
代表:BERT,GPT
二:GPT模型与BERT对比1.模型结构
GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。
2.预训练方式
GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。
BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。
3.存在的问题
BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。
三:GPT,GPT2,GPT3对比整体趋势,模型越来越大,大力出奇迹。
GPT:Fine-tuning
GPT2:Zero-Shot Learning
GPT3:Few-Shot Learning,但不更新参数
预训练语言模型PLM(课程笔记)
好难怎么办2024-08-26 9:45
相关推荐
诸葛务农7 小时前
光电对抗:多模复合制导烟雾干扰外场试验及仿真(4)KC2707 小时前
零信任安全架构的需求:当 AI 智能体开始渗透企业内网Alice-YUE7 小时前
AI对话为什么需要RAGAI服务老曹8 小时前
打破视频孤岛:基于 ZLMediaKit 的 GB28181 与 RTSP 统一接入网关架构设计冬奇Lab8 小时前
一天一个开源项目(第77篇):MoneyPrinterV2 —— 全自动短视频生产与流量变现的开源‘印钞机FreeBuf_8 小时前
“漏洞末日”警钟预警:AI批量发现黑客可利用的漏洞wanghowie8 小时前
13.Prompt工程化:让AI从“能聊天”到“会干活”人工智能AI技术8 小时前
全网最简:应届生面试通关手册墨心@8 小时前
pytorch 与资源核算zzb15808 小时前
Android Activity 与 Intent 学习笔记