BERT的工作原理

BERT的工作原理

BERT的工作原理:

Transformer的编码器是双向的,它可以从两个方向读取一个句子。因此,BERT由Transformer获得双向编码器特征。

我们把句子A(He got bit by Python)送入Transformer的编码器,得到句子中每个单词的上下文特征(嵌入)。一旦我们将句子送入编码器,编码器就会利用多头注意力层来理解每个单词在句中的上下文(将句子中的每个单词与句子中的所有单词联系起来,以学习单词之

间的关系和语境含义),并将其特征值作为输出。

如下图所示,我们将句子送入Transformer的编码器,得到句子中每个单词的特征值。图中的N表示可以有N个编码器。 R H e R_{He} RHe表示单词He的特征, R g o t R_{got} Rgot表示单词got的特征,以此类推。每个单词的特征向量大小是编码器层的大小。假设编码器层的大小为768,那么每个单词的特征向量大小也是768。为了避免重复,只有编码器1被展开说明。

同样,如果我们将句子B(Python is my favorite programming language)送入Transformer的编码器,那么会得到句子中每个单词的上下文特征,如下图所示。

可见,通过BERT模型,对于一个给定的句子,我们可以获得每个单词的上下文特征(嵌入)。现在,我们已经了解了BERT是如何生成上下文特征的。

相关推荐
Power202466620 分钟前
NLP论文速读(Apple出品)|迈向更好的多模态指令遵循能力评估
人工智能·深度学习·自然语言处理·自动化·nlp
垂杨有暮鸦⊙_⊙21 分钟前
蒙特卡洛方法(Monte Carlo,MC)
人工智能·笔记·机器学习·概率论
机器学习之心28 分钟前
聚划算!一区算法!双分解+牛顿拉夫逊优化+深度学习!CEEMDAN-VMD-NRBO-Transformer多元时序预测
深度学习·transformer·kmeans·ceemdan-vmd·nrbo·多元时序预测
初级炼丹师(爱说实话版)1 小时前
nn.MultiheadAttention返回的注意力权重和标准的计算注意力权重的区别
人工智能·深度学习·机器学习
roman_日积跬步-终至千里1 小时前
【人工智能基础】计算机视觉
人工智能·计算机视觉
weixin_431470861 小时前
文本数据分析(nlp)
开发语言·python·深度学习·自然语言处理
Francek Chen2 小时前
【大数据分析&深度学习】在Hadoop上实现分布式深度学习
人工智能·hadoop·分布式·深度学习·数据分析
明朝百晓生2 小时前
【PyTorch][chapter 228][李宏毅深度学习][Diffusion Model-1]
人工智能
骑猪玩狗2 小时前
第N8周:使用Word2vec实现文本分类
人工智能·分类·word2vec
狗窝超厉害2 小时前
研0找实习【学nlp】15---我的后续,总结(暂时性完结)
人工智能·pytorch·python·自然语言处理·bert