【NLP自然语言处理】为什么说BERT是bidirectional

首先,来看一下Transformer架构图:

我们知道,Bert设计时主要采用的是Transformer编码器部分,要论述Bert为啥是双向的,我想从编码器和解码器的注意力机制来阐述。

在看这篇博客前,需要对Transformer有一定的了解,在这里推荐博客翻译: 详细图解Transformer

我们知道,编码器部分的注意力机制采用多头注意力机制,而为什么要用MultiHead Attention,Transformer给出的解释为:Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息

而解码器部分采用的是Masked Attention,mask的目的是为了防止网络看到不该看到的内容

二者区别一个是双向,一个是单向,这也就是我如何理解的Bert采用的是双向编码器了。

关于MultiHead Attention和Masked Attention机制,这篇博客及其推荐:MultiHead-Attention和Masked-Attention的机制和原理

相关推荐
lqqjuly18 分钟前
一致性模型深度解析
人工智能·深度学习·算法
zcg19421 小时前
开源+轻量的文生图模型——z-image
计算机视觉·transformer
哈伦20191 小时前
第十二章 深度学习基础 案例:CNN分析K线图来评估股票价格趋势
深度学习·cnn·k线图
张飞飞飞飞飞1 小时前
多模态目标检测-LLVIP数据集处理(清洗+YOLO格式)
人工智能·深度学习·目标检测
lqqjuly1 小时前
FlashAttention 深度解析
人工智能·深度学习·算法
广州灵眸科技有限公司1 小时前
3Tops NPU + 4核高性能架构:灵眸科技EASY-EAI-PI2开发板,为边缘AI开启“easy模式”
服务器·前端·人工智能·python·科技·深度学习·架构
SilentSamsara2 小时前
模型评估与超参调优:交叉验证、Optuna 与模型选择策略
人工智能·python·深度学习·机器学习·青少年编程
栈溢出了2 小时前
torch.gather 用法笔记
pytorch·python·深度学习
程序员小嬛2 小时前
2026年因果推断与多目标优化结合的前沿思路
人工智能·深度学习·神经网络·transformer·论文笔记
人邮异步社区2 小时前
请问如何系统地学习深度学习所需的数学基础?
人工智能·深度学习·学习