预训练语言模型PLM(课程笔记)

一:分为两种范式

  1. Feature-based

预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。

代表:word2vec,ELMO

  1. Fine-tuning

在下游任务时对模型参数进行更新

代表:BERT,GPT
二:GPT模型与BERT对比

1.模型结构

GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。

2.预训练方式

GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。

BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。

3.存在的问题

BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。
三:GPT,GPT2,GPT3对比

整体趋势,模型越来越大,大力出奇迹。

GPT:Fine-tuning

GPT2:Zero-Shot Learning

GPT3:Few-Shot Learning,但不更新参数

相关推荐
诸葛务农7 小时前
光电对抗:多模复合制导烟雾干扰外场试验及仿真(4)
人工智能·算法·光电对抗
KC2707 小时前
零信任安全架构的需求:当 AI 智能体开始渗透企业内网
人工智能·安全
Alice-YUE7 小时前
AI对话为什么需要RAG
前端·语言模型·rag
AI服务老曹8 小时前
打破视频孤岛:基于 ZLMediaKit 的 GB28181 与 RTSP 统一接入网关架构设计
人工智能·spring boot·音视频
冬奇Lab8 小时前
一天一个开源项目(第77篇):MoneyPrinterV2 —— 全自动短视频生产与流量变现的开源‘印钞机
人工智能·开源·资讯
FreeBuf_8 小时前
“漏洞末日”警钟预警:AI批量发现黑客可利用的漏洞
人工智能
wanghowie8 小时前
13.Prompt工程化:让AI从“能聊天”到“会干活”
人工智能·prompt
人工智能AI技术8 小时前
全网最简:应届生面试通关手册
人工智能
墨心@8 小时前
pytorch 与资源核算
pytorch·语言模型·大语言模型·datawhale·组队学习
zzb15808 小时前
Android Activity 与 Intent 学习笔记
android·笔记·学习