【NLP自然语言处理】为什么说BERT是bidirectional

首先,来看一下Transformer架构图:

我们知道,Bert设计时主要采用的是Transformer编码器部分,要论述Bert为啥是双向的,我想从编码器和解码器的注意力机制来阐述。

在看这篇博客前,需要对Transformer有一定的了解,在这里推荐博客翻译: 详细图解Transformer

我们知道,编码器部分的注意力机制采用多头注意力机制,而为什么要用MultiHead Attention,Transformer给出的解释为:Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息

而解码器部分采用的是Masked Attention,mask的目的是为了防止网络看到不该看到的内容

二者区别一个是双向,一个是单向,这也就是我如何理解的Bert采用的是双向编码器了。

关于MultiHead Attention和Masked Attention机制,这篇博客及其推荐:MultiHead-Attention和Masked-Attention的机制和原理

相关推荐
@Mr_LiuYang26 分钟前
深度学习PyTorch之13种模型精度评估公式及调用方法
人工智能·pytorch·深度学习·模型评估·精度指标·模型精度
幻风_huanfeng31 分钟前
每天五分钟深度学习框架PyTorch:使用残差块快速搭建ResNet网络
人工智能·pytorch·深度学习·神经网络·机器学习·resnet
ZHOU_WUYI2 小时前
旋转位置编码 (2)
pytorch·python·深度学习
qq_273900232 小时前
AF3 squeeze_features函数解读
人工智能·pytorch·深度学习·生物信息学
ZhuBin3652 小时前
推测gpt4o视觉皮层建立的过程
人工智能·深度学习·计算机视觉
大数据追光猿2 小时前
Qwen 模型与 LlamaFactory 结合训练详细步骤教程
大数据·人工智能·深度学习·计算机视觉·语言模型
何仙鸟3 小时前
深度学习网格搜索实战
人工智能·深度学习
王国强20093 小时前
现代循环神经网络3-深度循环神经网络
深度学习
Wis4e4 小时前
基于PyTorch的深度学习5——神经网络工具箱
pytorch·深度学习·神经网络
闲人编程4 小时前
调试与性能优化技巧
人工智能·pytorch·深度学习