一:分为两种范式
- Feature-based
预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。
代表:word2vec,ELMO
- Fine-tuning
在下游任务时对模型参数进行更新
代表:BERT,GPT
二:GPT模型与BERT对比1.模型结构
GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。
2.预训练方式
GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。
BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。
3.存在的问题
BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。
三:GPT,GPT2,GPT3对比整体趋势,模型越来越大,大力出奇迹。
GPT:Fine-tuning
GPT2:Zero-Shot Learning
GPT3:Few-Shot Learning,但不更新参数
预训练语言模型PLM(课程笔记)
好难怎么办2024-08-26 9:45
相关推荐
mit6.8242 分钟前
[1Prompt1Story] 滑动窗口机制 | 图像生成管线 | VAE变分自编码器 | UNet去噪神经网络sinat_286945196 分钟前
AI应用安全 - Prompt注入攻击星星火柴9361 小时前
关于“双指针法“的总结迈火1 小时前
ComfyUI-3D-Pack:3D创作的AI神器Moshow郑锴2 小时前
机器学习的特征工程(特征构造、特征选择、特征转换和特征提取)详解CareyWYR3 小时前
每周AI论文速递(250811-250815)AI精钢3 小时前
H20芯片与中国的科技自立:一场隐形的博弈whaosoft-1433 小时前
51c自动驾驶~合集14Cx330❀3 小时前
【数据结构初阶】--排序(五):计数排序,排序算法复杂度对比和稳定性分析Jinkxs4 小时前
自动化测试的下一站:AI缺陷检测工具如何实现“bug提前预警”?