gpt1与bert区别

区别1:网络结构(主要是Masked Multi-Head-Attention和Multi-Head-Attention)

gpt1使用transformer的decoder,单向编码,是一种基于语言模型的生成式模型,更适合生成下一个单词或句子

bert使用transformer的encoder,双向编码,适合处理需要理解整个句子或段落的任务。可以用于许多NLP任务,如分类、命名实体识别和句子关系判断等

区别2:预训练任务(主要是Masking Input)

有一个句子是台湾大学,GPT选取BOS这个起始Token,所对应的输出embedding,用h来表示。然后通过一个Linear Transform,再通过一个softmax,得到一个概率分布,我们希望这个输出的概率分布,跟正确答案的交叉熵越小越好。

在Bert的预训练任务中,Bert主要使用"填空题"的方式来完成预训练,当我们输入一个句子时,其中的一些词会被随机mask。可以用一个one-hot vector来表示这个字符,并使输出和one-hot vector之间的交叉熵损失最小。

相关推荐
云汉芯城ICkey3 分钟前
云汉芯城✖海智在线亮相AWE 2026:AI驱动的供应链体系加速创新产品落地
人工智能
泛联新安5 分钟前
AI For Trusted Code|泛联新安:以“AI+可信”构筑智能时代基石
人工智能
zyplayer-doc6 分钟前
2026企业知识库选型:zyplayer-doc功能深度评测与使用总结
人工智能·开源软件
Breath576 分钟前
我用开源项目把 AI Agent 和钉钉打通了,现在能查人、发消息、管文档
人工智能·开源·钉钉
TLeung653678 分钟前
【无标题】
人工智能·ai
ViiTor_AI9 分钟前
ElevenLabs 语音克隆工具深度评测:价格、功能与最佳替代方案
人工智能·语音识别
Nile10 分钟前
解密openclaw底层pi-mono架构系列一:5. 让 AI 住进 Slack —— 自我管理的 Slack Bot 智能体详解
人工智能·架构
DARLING Zero two♡10 分钟前
私人 AI 随身带!OpenClaw+cpolar 外网访问完整教程
人工智能
红龙创客11 分钟前
从零到一:我用DeepSeek + Suno + 即梦全AI流程创作了一首歌(实操小白教程)
人工智能
CS创新实验室13 分钟前
从硬件抽象到意图对齐:论 AI 时代操作系统演进的逻辑必然与 OpenClaw 的范式价值
人工智能·操作系统·策略模式