预训练语言模型PLM(课程笔记)

一:分为两种范式

  1. Feature-based

预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。

代表:word2vec,ELMO

  1. Fine-tuning

在下游任务时对模型参数进行更新

代表:BERT,GPT
二:GPT模型与BERT对比

1.模型结构

GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。

2.预训练方式

GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。

BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。

3.存在的问题

BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。
三:GPT,GPT2,GPT3对比

整体趋势,模型越来越大,大力出奇迹。

GPT:Fine-tuning

GPT2:Zero-Shot Learning

GPT3:Few-Shot Learning,但不更新参数

相关推荐
可观测性用观测云10 小时前
观测云 MCP Server 接入和使用最佳实践
人工智能
掘金一周10 小时前
大部分人都错了!这才是chrome插件多脚本通信的正确姿势 | 掘金一周 11.27
前端·人工智能·后端
xier_ran10 小时前
深度学习:生成对抗网络(GAN)详解
人工智能·深度学习·机器学习·gan
ModestCoder_10 小时前
ROS Bag与导航数据集技术指南
开发语言·人工智能·自然语言处理·机器人·具身智能
卡提西亚11 小时前
C++笔记-34-map/multimap容器
开发语言·c++·笔记
海边夕阳200611 小时前
【每天一个AI小知识】:什么是循环神经网络?
人工智能·经验分享·rnn·深度学习·神经网络·机器学习
2501_9181269111 小时前
如何用ai做开发
人工智能
f***a34611 小时前
开源模型应用落地-工具使用篇-Spring AI-高阶用法(九)
人工智能·spring·开源
用户51914958484511 小时前
BBDown:高效便捷的哔哩哔哩视频下载工具
人工智能·aigc
CV实验室11 小时前
CV论文速递:覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向 (11.17-11.21)
人工智能·计算机视觉·3d·论文·音视频·视频生成