【NLP自然语言处理】为什么说BERT是bidirectional

首先,来看一下Transformer架构图:

我们知道,Bert设计时主要采用的是Transformer编码器部分,要论述Bert为啥是双向的,我想从编码器和解码器的注意力机制来阐述。

在看这篇博客前,需要对Transformer有一定的了解,在这里推荐博客翻译: 详细图解Transformer

我们知道,编码器部分的注意力机制采用多头注意力机制,而为什么要用MultiHead Attention,Transformer给出的解释为:Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息

而解码器部分采用的是Masked Attention,mask的目的是为了防止网络看到不该看到的内容

二者区别一个是双向,一个是单向,这也就是我如何理解的Bert采用的是双向编码器了。

关于MultiHead Attention和Masked Attention机制,这篇博客及其推荐:MultiHead-Attention和Masked-Attention的机制和原理

相关推荐
盼小辉丶40 分钟前
深度解析强化学习:原理、算法与实战
深度学习·强化学习
Jeson-y2 小时前
PointNet++语义分割(semseg)训练自己的数据集并完成可视化并保存txt结果
图像处理·深度学习
大神薯条老师4 小时前
Python高级爬虫之js逆向+安卓逆向1.3节:Python数据类型
爬虫·python·深度学习·机器学习·数据分析·网络爬虫
AI街潜水的八角5 小时前
深度学习图像分类数据集—枣子水果成熟度分类
人工智能·深度学习·分类
羊小猪~~8 小时前
深度学习项目--分组卷积与ResNext网络实验探究(pytorch复现)
网络·人工智能·pytorch·python·深度学习·神经网络·机器学习
liruiqiang0512 小时前
神经网络 - 关于简单的激活函数的思考总结
人工智能·深度学习·神经网络·机器学习
点我头像干啥13 小时前
第1节:计算机视觉发展简史
人工智能·深度学习·神经网络·计算机视觉
_一条咸鱼_15 小时前
深入剖析 AI 大模型的反向传播原理
人工智能·深度学习·机器学习
@MrLiu15 小时前
# 基于BERT的文本分类
人工智能·自然语言处理·分类·bert