gpt1与bert区别

区别1:网络结构(主要是Masked Multi-Head-Attention和Multi-Head-Attention)

gpt1使用transformer的decoder,单向编码,是一种基于语言模型的生成式模型,更适合生成下一个单词或句子

bert使用transformer的encoder,双向编码,适合处理需要理解整个句子或段落的任务。可以用于许多NLP任务,如分类、命名实体识别和句子关系判断等

区别2:预训练任务(主要是Masking Input)

有一个句子是台湾大学,GPT选取BOS这个起始Token,所对应的输出embedding,用h来表示。然后通过一个Linear Transform,再通过一个softmax,得到一个概率分布,我们希望这个输出的概率分布,跟正确答案的交叉熵越小越好。

在Bert的预训练任务中,Bert主要使用"填空题"的方式来完成预训练,当我们输入一个句子时,其中的一些词会被随机mask。可以用一个one-hot vector来表示这个字符,并使输出和one-hot vector之间的交叉熵损失最小。

相关推荐
sensen_kiss1 分钟前
INT301 Bio-computation 生物计算(神经网络)Pt.1 导论与Hebb学习规则
人工智能·神经网络·学习
玉石观沧海3 分钟前
高压变频器故障代码解析F67 F68
运维·经验分享·笔记·分布式·深度学习
mwq301235 分钟前
GPT系列模型演进:从GPT-1到GPT-4o的技术突破与差异解析
人工智能
JJJJ_iii7 分钟前
【深度学习05】PyTorch:完整的模型训练套路
人工智能·pytorch·python·深度学习
mwq3012319 分钟前
AI的“物理学”:揭秘GPT-3背后改变一切的“缩放定律”
人工智能
DP+GISer27 分钟前
自己制作遥感深度学习数据集进行遥感深度学习地物分类-试读
人工智能·深度学习·分类
victory043130 分钟前
TODO 分类任务指标计算和展示 准确率 F1 Recall
人工智能·机器学习·分类
rengang6630 分钟前
07-逻辑回归:分析用于分类问题的逻辑回归模型及其数学原理
人工智能·算法·机器学习·分类·逻辑回归
居7然44 分钟前
京东开源王炸!JoyAgent-JDGenie如何重新定义智能体开发?
人工智能·开源·大模型·mcp