【NLP自然语言处理】为什么说BERT是bidirectional

首先,来看一下Transformer架构图:

我们知道,Bert设计时主要采用的是Transformer编码器部分,要论述Bert为啥是双向的,我想从编码器和解码器的注意力机制来阐述。

在看这篇博客前,需要对Transformer有一定的了解,在这里推荐博客翻译: 详细图解Transformer

我们知道,编码器部分的注意力机制采用多头注意力机制,而为什么要用MultiHead Attention,Transformer给出的解释为:Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息

而解码器部分采用的是Masked Attention,mask的目的是为了防止网络看到不该看到的内容

二者区别一个是双向,一个是单向,这也就是我如何理解的Bert采用的是双向编码器了。

关于MultiHead Attention和Masked Attention机制,这篇博客及其推荐:MultiHead-Attention和Masked-Attention的机制和原理

相关推荐
殇者知忧2 小时前
【论文笔记】若干矿井粉尘检测算法概述
深度学习·神经网络·算法·随机森林·机器学习·支持向量机·计算机视觉
红衣小蛇妖5 小时前
神经网络-Day45
人工智能·深度学习·神经网络
JoannaJuanCV6 小时前
BEV和OCC学习-5:数据预处理流程
深度学习·目标检测·3d·occ·bev
Best_Me078 小时前
深度学习模块缝合
人工智能·深度学习
狂小虎10 小时前
亲测解决self.transform is not exist
python·深度学习
Fxrain10 小时前
[深度学习]搭建开发平台及Tensor基础
人工智能·深度学习
大鹏的NLP博客10 小时前
基于 Transformer robert的情感分类任务实践总结之二——R-Drop
分类·transformer·r-dop
写代码的小阿帆11 小时前
Fractal Generative Models论文阅读笔记与代码分析
论文阅读·stable diffusion·transformer
一叶知秋秋12 小时前
python学习day39
人工智能·深度学习·学习
weixin_4487816212 小时前
DenseNet算法 实现乳腺癌识别
pytorch·深度学习·神经网络