BERT的工作原理

BERT的工作原理

BERT的工作原理:

Transformer的编码器是双向的,它可以从两个方向读取一个句子。因此,BERT由Transformer获得双向编码器特征。

我们把句子A(He got bit by Python)送入Transformer的编码器,得到句子中每个单词的上下文特征(嵌入)。一旦我们将句子送入编码器,编码器就会利用多头注意力层来理解每个单词在句中的上下文(将句子中的每个单词与句子中的所有单词联系起来,以学习单词之

间的关系和语境含义),并将其特征值作为输出。

如下图所示,我们将句子送入Transformer的编码器,得到句子中每个单词的特征值。图中的N表示可以有N个编码器。 R H e R_{He} RHe表示单词He的特征, R g o t R_{got} Rgot表示单词got的特征,以此类推。每个单词的特征向量大小是编码器层的大小。假设编码器层的大小为768,那么每个单词的特征向量大小也是768。为了避免重复,只有编码器1被展开说明。

同样,如果我们将句子B(Python is my favorite programming language)送入Transformer的编码器,那么会得到句子中每个单词的上下文特征,如下图所示。

可见,通过BERT模型,对于一个给定的句子,我们可以获得每个单词的上下文特征(嵌入)。现在,我们已经了解了BERT是如何生成上下文特征的。

相关推荐
小鸡吃米…4 小时前
机器学习 - K - 中心聚类
人工智能·机器学习·聚类
好奇龙猫5 小时前
【AI学习-comfyUI学习-第三十节-第三十一节-FLUX-SD放大工作流+FLUX图生图工作流-各个部分学习】
人工智能·学习
沈浩(种子思维作者)5 小时前
真的能精准医疗吗?癌症能提前发现吗?
人工智能·python·网络安全·健康医疗·量子计算
minhuan5 小时前
大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51
人工智能·大模型参数评估·边际效益分析·大模型参数选择
Cherry的跨界思维5 小时前
28、AI测试环境搭建与全栈工具实战:从本地到云平台的完整指南
java·人工智能·vue3·ai测试·ai全栈·测试全栈·ai测试全栈
MM_MS5 小时前
Halcon变量控制类型、数据类型转换、字符串格式化、元组操作
开发语言·人工智能·深度学习·算法·目标检测·计算机视觉·视觉检测
ASF1231415sd5 小时前
【基于YOLOv10n-CSP-PTB的大豆花朵检测与识别系统详解】
人工智能·yolo·目标跟踪
水如烟6 小时前
孤能子视角:“意识“的阶段性回顾,“感质“假说
人工智能
Carl_奕然6 小时前
【数据挖掘】数据挖掘必会技能之:A/B测试
人工智能·python·数据挖掘·数据分析
旅途中的宽~6 小时前
《European Radiology》:2024血管瘤分割—基于MRI T1序列的分割算法
人工智能·计算机视觉·mri·sci一区top·血管瘤·t1