BERT的工作原理

BERT的工作原理

BERT的工作原理:

Transformer的编码器是双向的,它可以从两个方向读取一个句子。因此,BERT由Transformer获得双向编码器特征。

我们把句子A(He got bit by Python)送入Transformer的编码器,得到句子中每个单词的上下文特征(嵌入)。一旦我们将句子送入编码器,编码器就会利用多头注意力层来理解每个单词在句中的上下文(将句子中的每个单词与句子中的所有单词联系起来,以学习单词之

间的关系和语境含义),并将其特征值作为输出。

如下图所示,我们将句子送入Transformer的编码器,得到句子中每个单词的特征值。图中的N表示可以有N个编码器。 R H e R_{He} RHe表示单词He的特征, R g o t R_{got} Rgot表示单词got的特征,以此类推。每个单词的特征向量大小是编码器层的大小。假设编码器层的大小为768,那么每个单词的特征向量大小也是768。为了避免重复,只有编码器1被展开说明。

同样,如果我们将句子B(Python is my favorite programming language)送入Transformer的编码器,那么会得到句子中每个单词的上下文特征,如下图所示。

可见,通过BERT模型,对于一个给定的句子,我们可以获得每个单词的上下文特征(嵌入)。现在,我们已经了解了BERT是如何生成上下文特征的。

相关推荐
米小虾10 分钟前
Agent Skill 设计模式完全指南
人工智能·agent
饼干哥哥37 分钟前
保姆级教程:用Image2 + Seedance2.0 做长视频,以品牌广告为例
人工智能
米小虾1 小时前
Agent Skill 规范与 Skill-Creator 核心思想
人工智能·agent
ZhengEnCi1 小时前
09e-斯坦福CS336作业四:大规模语言模型训练数据收集与处理
人工智能
oil欧哟1 小时前
Codex 最佳实践(超级长文):先搞懂 AI,再用好 AI
前端·人工智能·后端
甲维斯2 小时前
日本发布比肩Fable5的模型?Fugu Ultra初探!
人工智能·ai编程
雪隐2 小时前
个人电脑玩AI-04让5060 Ti给你打工——本地FLUX.2 Klein 的 AI 图片生成
人工智能·后端
腾讯云开发者2 小时前
腾讯云TVP走进香港数码港,解码AI出海新范式
人工智能
用户47949283569152 小时前
又当又立: Anthropic 这篇安全白皮书,为什么让人恶心
人工智能
Darling噜啦啦2 小时前
AI Loop 自迭代循环实战:让 AI 自动写文案直到完美——从 Prompt 工程到 Loop 工程
人工智能