论文阅读 BERT GPT - transformer在NLP领域的延伸

文章目录

不会写的很详细,只是为了帮助我理解在CV领域transformer的拓展

1 摘要

1.1 BERT - 核心

双向 编码器 加上mask做完形填空超大模型无监督预训练 需要整个模型作为pretrain weight到下游任务做fintune

1.2 GPT - 核心

自回归 解码器 无需训练 只需Prompt

2 模型架构

2.1 概览


3 区别

3.1 finetune和prompt

BERT需要全部参数进行训练

GPT不需要训练即可完成下游任务

3.2 transformer及训练

BERT使用双向的编码器

GPT使用自回归的解码器

总结

总结个毛

相关推荐
c0d1ng13 分钟前
一月第四周周报(论文阅读)
论文阅读
翱翔的苍鹰1 小时前
通俗讲解在中文 NLP中要用 jieba 分词,以及它和 循环神经网络(RNN) 的关系。
人工智能·pytorch·rnn·神经网络·自然语言处理
java1234_小锋2 小时前
【AI大模型面试题】在训练超大规模语言模型(如千亿参数级别)时,除了显存限制,最主要的训练挑战是什么?
人工智能·语言模型·自然语言处理
m0_650108243 小时前
FeatureSLAM:实时特征增强的 3D 高斯溅射 SLAM 技术
论文阅读·智能机器人·语义理解·featureslam·高斯实时建图·多尺度特征嵌入
爱思德学术3 小时前
中国计算机学会(CCF)推荐学术会议-A(数据库/数据挖掘/内容检索):SIGIR 2026
机器学习·自然语言处理·信息检索
2501_948120154 小时前
中职动漫设计与制作专业实训方案研究
前端·人工智能·语言模型·自然语言处理·架构
玄同76516 小时前
Python「焚诀」:吞噬所有语法糖的终极修炼手册
开发语言·数据库·人工智能·python·postgresql·自然语言处理·nlp
老鱼说AI17 小时前
论文精读第七期:告别昂贵的人工标注!Math-Shepherd:如何用“零成本”自动化过程监督,让大模型数学能力暴涨?
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·boosting
aspxiy18 小时前
知识求解器:教会大型语言模型从知识图谱中搜索领域知识
人工智能·语言模型·自然语言处理·知识图谱
何如千泷21 小时前
【论文阅读】Invasive carcinoma segmentation in whole slide images usingMS-ResMTUNet
论文阅读·wsi·病理图像分割