BERT的工作原理

BERT的工作原理

BERT的工作原理:

Transformer的编码器是双向的,它可以从两个方向读取一个句子。因此,BERT由Transformer获得双向编码器特征。

我们把句子A(He got bit by Python)送入Transformer的编码器,得到句子中每个单词的上下文特征(嵌入)。一旦我们将句子送入编码器,编码器就会利用多头注意力层来理解每个单词在句中的上下文(将句子中的每个单词与句子中的所有单词联系起来,以学习单词之

间的关系和语境含义),并将其特征值作为输出。

如下图所示,我们将句子送入Transformer的编码器,得到句子中每个单词的特征值。图中的N表示可以有N个编码器。 R H e R_{He} RHe表示单词He的特征, R g o t R_{got} Rgot表示单词got的特征,以此类推。每个单词的特征向量大小是编码器层的大小。假设编码器层的大小为768,那么每个单词的特征向量大小也是768。为了避免重复,只有编码器1被展开说明。

同样,如果我们将句子B(Python is my favorite programming language)送入Transformer的编码器,那么会得到句子中每个单词的上下文特征,如下图所示。

可见,通过BERT模型,对于一个给定的句子,我们可以获得每个单词的上下文特征(嵌入)。现在,我们已经了解了BERT是如何生成上下文特征的。

相关推荐
想用offer打牌15 分钟前
LLM参数: Temperature 与 Top-p解析
人工智能·python·llm
kimi-22216 分钟前
三种调用 ChatOllama 的方式
人工智能
公链开发21 分钟前
链游开发全路径赋能:如何重塑从创意到生态的完整闭环
大数据·人工智能·ux
安徽正LU o561-6o623o725 分钟前
露-大鼠活动记录仪 小动物活动记录仪
人工智能
dhdjjsjs26 分钟前
Day43 PythonStudy
人工智能·机器学习
BJ_Bonree29 分钟前
2025上海金融科技嘉年华启幕!博睿数据解读AI智能体重塑金融运维之道
人工智能·科技·金融
FL162386312935 分钟前
传送带异物检测玻璃碴子检测数据集VOC+YOLO格式156张1类别
深度学习·yolo·机器学习
CoderLiu41 分钟前
上下文工程:从 Manus 实践看 AI 智能体的成本与性能优化
人工智能·agent·ai编程
hg011844 分钟前
靖州首次从非洲进口初加工茯苓
大数据·人工智能
跨境猫小妹1 小时前
2025 TikTok Shop:从内容爆发到系统化深耕的商业跃迁
大数据·人工智能·算法·产品运营·亚马逊