BERT的工作原理

BERT的工作原理

BERT的工作原理:

Transformer的编码器是双向的,它可以从两个方向读取一个句子。因此,BERT由Transformer获得双向编码器特征。

我们把句子A(He got bit by Python)送入Transformer的编码器,得到句子中每个单词的上下文特征(嵌入)。一旦我们将句子送入编码器,编码器就会利用多头注意力层来理解每个单词在句中的上下文(将句子中的每个单词与句子中的所有单词联系起来,以学习单词之

间的关系和语境含义),并将其特征值作为输出。

如下图所示,我们将句子送入Transformer的编码器,得到句子中每个单词的特征值。图中的N表示可以有N个编码器。 R H e R_{He} RHe表示单词He的特征, R g o t R_{got} Rgot表示单词got的特征,以此类推。每个单词的特征向量大小是编码器层的大小。假设编码器层的大小为768,那么每个单词的特征向量大小也是768。为了避免重复,只有编码器1被展开说明。

同样,如果我们将句子B(Python is my favorite programming language)送入Transformer的编码器,那么会得到句子中每个单词的上下文特征,如下图所示。

可见,通过BERT模型,对于一个给定的句子,我们可以获得每个单词的上下文特征(嵌入)。现在,我们已经了解了BERT是如何生成上下文特征的。

相关推荐
weixin_468466854 分钟前
通义千问核心能力与实战表现深度评测
人工智能·深度学习·算法·ai·大模型
jerryinwuhan5 分钟前
marker BiBERTo解释
java·前端·人工智能
学习3人组5 分钟前
机器学习KNeighborsClassifier实现手写数字识别
人工智能·机器学习
掘金安东尼6 分钟前
如果你真能 7×24 小时运行最顶级的大模型,你会想用它来干嘛
人工智能
翼龙云_cloud6 分钟前
云服务器代理商:2026 年云计算趋势 AI 算力需求激增下的云服务器选择
服务器·人工智能·云计算·ai智能体
m沐沐7 分钟前
【机器学习】NLP---用 Python+TF-IDF 给《红楼梦》自动提取关键词
人工智能·python·机器学习·自然语言处理·nlp·中文分词·tf-idf
小脑斧1237 分钟前
自媒体内容工业化:基于AI Skills低代码实现穿搭账号矩阵自动化量产
人工智能·低代码·媒体·skills·openclaw·hermes·marvis
填满你的记忆7 分钟前
《为什么 MySQL 不适合做 AI 检索?》
数据库·人工智能·mysql·ai·向量数据库
威尔逊·柏斯科·希伯理10 分钟前
机器学习第二天(KNN)
人工智能·机器学习
书生的梦10 分钟前
《神经网络与深度学习》学习笔记(三):Transformer 模型
深度学习·神经网络·学习