gpt1与bert区别

区别1:网络结构(主要是Masked Multi-Head-Attention和Multi-Head-Attention)

gpt1使用transformer的decoder,单向编码,是一种基于语言模型的生成式模型,更适合生成下一个单词或句子

bert使用transformer的encoder,双向编码,适合处理需要理解整个句子或段落的任务。可以用于许多NLP任务,如分类、命名实体识别和句子关系判断等

区别2:预训练任务(主要是Masking Input)

有一个句子是台湾大学,GPT选取BOS这个起始Token,所对应的输出embedding,用h来表示。然后通过一个Linear Transform,再通过一个softmax,得到一个概率分布,我们希望这个输出的概率分布,跟正确答案的交叉熵越小越好。

在Bert的预训练任务中,Bert主要使用"填空题"的方式来完成预训练,当我们输入一个句子时,其中的一些词会被随机mask。可以用一个one-hot vector来表示这个字符,并使输出和one-hot vector之间的交叉熵损失最小。

相关推荐
whaosoft-1433 分钟前
51c深度学习~合集12
人工智能
minhuan4 分钟前
构建AI智能体:八十、SVD知识整理与降维:从数据混沌到语义秩序的智能转换
人工智能·奇异值分解·svd降维·svd知识整理
xier_ran4 分钟前
关键词解释:点积(Dot Product)在深度学习中的意义
人工智能·深度学习
GAOJ_K4 分钟前
同步带模组同步带老化断裂如何更换?
人工智能·科技·自动化·制造
烟锁池塘柳013 分钟前
【已解决】解决CondaVerificationError:PyTorch安装包损坏问题
人工智能·pytorch·python
互联科技报21 分钟前
2025年外贸管理软件排行榜
人工智能
九河云22 分钟前
华为云 Flexus 对象存储:高可靠低成本双引擎,筑牢企业数据根基
服务器·网络·人工智能·科技·华为云
飞哥数智坊29 分钟前
AI时代,Know-what比Know-how更重要
人工智能
AI人工智能+33 分钟前
医疗器械经营许可证识别技术通过OCR与AI技术实现资质信息自动提取,显著提升行业效率与合规管理水平
人工智能·ocr·医疗器械经营许可证识别
伊布拉西莫42 分钟前
spring-ai advisors 使用与源码分析
java·人工智能·spring