一:分为两种范式
- Feature-based
预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。
代表:word2vec,ELMO
- Fine-tuning
在下游任务时对模型参数进行更新
代表:BERT,GPT
二:GPT模型与BERT对比1.模型结构
GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。
2.预训练方式
GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。
BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。
3.存在的问题
BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。
三:GPT,GPT2,GPT3对比整体趋势,模型越来越大,大力出奇迹。
GPT:Fine-tuning
GPT2:Zero-Shot Learning
GPT3:Few-Shot Learning,但不更新参数
预训练语言模型PLM(课程笔记)
好难怎么办2024-08-26 9:45
相关推荐
带娃的IT创业者1 分钟前
可选依赖的优雅降级:从思维导图双引擎到语音识别三级容错的实战设计小陈phd6 分钟前
多模态大模型学习笔记(二十四)—— 核心技术篇① | 虚拟人形象生成:扩散模型与ControlNet原理趣魂6 分钟前
LobsterAI + LM Studio + Qwen2.5-0.5B 本地智能体安装笔记八月瓜科技9 分钟前
擎策·知海全球专利数据库 专业专利检索赋能 规避无效研发提效创新百胜软件@百胜软件14 分钟前
社区生鲜零售革命:8万亿赛道的效率突围与生态重构jinanwuhuaguo19 分钟前
OpenClaw v2026.3.22-beta.1 深度技术分析报告:从单智能体操作系统到多智能体协作平台的范式跃迁天辛大师20 分钟前
天辛大师也谈大模型GEO技术,虚构与误导的重读金融小师妹23 分钟前
基于多因子流动性模型的“黄金闪崩”解析:利率预期强化与资金再平衡驱动的金价8%下跌机制weixin_3077791323 分钟前
2025年中国研究生数学建模竞赛A题:通用神经网络处理器下的核内调度问题——解决方案与实现新缸中之脑24 分钟前
Okara AI CMO:市场营销智能体