一:分为两种范式
- Feature-based
预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。
代表:word2vec,ELMO
- Fine-tuning
在下游任务时对模型参数进行更新
代表:BERT,GPT
二:GPT模型与BERT对比1.模型结构
GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。
2.预训练方式
GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。
BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。
3.存在的问题
BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。
三:GPT,GPT2,GPT3对比整体趋势,模型越来越大,大力出奇迹。
GPT:Fine-tuning
GPT2:Zero-Shot Learning
GPT3:Few-Shot Learning,但不更新参数
预训练语言模型PLM(课程笔记)
好难怎么办2024-08-26 9:45
相关推荐
可观测性用观测云10 小时前
观测云 MCP Server 接入和使用最佳实践掘金一周10 小时前
大部分人都错了!这才是chrome插件多脚本通信的正确姿势 | 掘金一周 11.27xier_ran10 小时前
深度学习:生成对抗网络(GAN)详解ModestCoder_10 小时前
ROS Bag与导航数据集技术指南卡提西亚11 小时前
C++笔记-34-map/multimap容器海边夕阳200611 小时前
【每天一个AI小知识】:什么是循环神经网络?2501_9181269111 小时前
如何用ai做开发f***a34611 小时前
开源模型应用落地-工具使用篇-Spring AI-高阶用法(九)用户51914958484511 小时前
BBDown:高效便捷的哔哩哔哩视频下载工具CV实验室11 小时前
CV论文速递:覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向 (11.17-11.21)