【NLP自然语言处理】为什么说BERT是bidirectional

首先,来看一下Transformer架构图:

我们知道,Bert设计时主要采用的是Transformer编码器部分,要论述Bert为啥是双向的,我想从编码器和解码器的注意力机制来阐述。

在看这篇博客前,需要对Transformer有一定的了解,在这里推荐博客翻译: 详细图解Transformer

我们知道,编码器部分的注意力机制采用多头注意力机制,而为什么要用MultiHead Attention,Transformer给出的解释为:Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息

而解码器部分采用的是Masked Attention,mask的目的是为了防止网络看到不该看到的内容

二者区别一个是双向,一个是单向,这也就是我如何理解的Bert采用的是双向编码器了。

关于MultiHead Attention和Masked Attention机制,这篇博客及其推荐:MultiHead-Attention和Masked-Attention的机制和原理

相关推荐
java1234_小锋1 小时前
TensorFlow2 Python深度学习 - TensorFlow2框架入门 - 使用Keras实现逻辑回归
python·深度学习·tensorflow·tensorflow2
JJjiangfz1 小时前
杭电 神经网络与深度学习 学习笔记
深度学习·神经网络·学习
java1234_小锋1 小时前
TensorFlow2 Python深度学习 - TensorFlow2框架入门 - Sequential顺序模型
python·深度学习·tensorflow·tensorflow2
小关会打代码3 小时前
深度学习之YOLO系列了解基本知识
人工智能·深度学习·yolo
渡我白衣9 小时前
深度学习入门(三)——优化算法与实战技巧
人工智能·深度学习
东方芷兰9 小时前
LLM 笔记 —— 04 为什么语言模型用文字接龙,图片模型不用像素接龙呢?
人工智能·笔记·深度学习·语言模型·自然语言处理
Niuguangshuo9 小时前
深度学习基本模块:MultiheadAttention 多头注意力机制
人工智能·深度学习
MPCTHU9 小时前
Deep Learning|03 Overview of Machine Learning
人工智能·深度学习·机器学习
Rock_yzh10 小时前
AI学习日记——卷积神经网络(CNN):完整实现与可视化分析
人工智能·python·深度学习·神经网络·学习·cnn
空白到白10 小时前
RNN-seq2seq 英译法案例
人工智能·rnn·深度学习