NLP 04(GRU)

一、GRU

GRU (Gated Recurrent Unit)也称门控循环单元结构,它也是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联缓解梯度消失或爆炸现象同时它的结构和计算要比LSTM更简单,它的核心结构可以分为两个部分去解析:

更新门、重置门

GRU的内部结构图和计算公式:

1.1 更新门&重置门

Bi-GRU与Bi-LSTM的逻辑相同,都是不改变其内部结构,而是将模型应用两次且方向不同,再将两次得到的LSTM结果进行拼接作为最终输出

二、GRU优缺点

  • 优点

GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统RNN且计算复杂度相比LSTM要小

  • 缺点

GRU仍然不能完全解决梯度消失问题,同时其作用RNN的变体,有着RNN结构本身的一大弊端,即不可并行计算,这在数据量和模型体量逐步增大的未来,是RNN发展的关键瓶颈。

相关推荐
Quintus五等升8 小时前
深度学习①|线性回归的实现
人工智能·python·深度学习·学习·机器学习·回归·线性回归
汗流浃背了吧,老弟!10 小时前
什么是ResNet
人工智能·深度学习
哥布林学者10 小时前
吴恩达深度学习课程五:自然语言处理 第一周:循环神经网络 (三)语言模型
深度学习·ai
小途软件10 小时前
高校宿舍访客预约管理平台开发
java·人工智能·pytorch·python·深度学习·语言模型
捕风捉你11 小时前
【AI转行04】特征工程:治疗 AI 的“学不会”和“想太多”
人工智能·深度学习·机器学习
lixzest11 小时前
C++上位机软件开发入门深度学习
开发语言·c++·深度学习
AI模块工坊12 小时前
【AAAI 2026】即插即用 Spikingformer 重构残差连接,打造高效脉冲 Transformer
深度学习·重构·transformer
棒棒的皮皮12 小时前
【深度学习】YOLO模型评估之指标、可视化曲线分析
人工智能·深度学习·yolo·计算机视觉
guoketg14 小时前
BERT的技术细节和面试问题汇总
人工智能·深度学习·bert
MF_AI14 小时前
大型烟雾火灾检测识别数据集:25w+图像,2类,yolo标注
图像处理·人工智能·深度学习·yolo·计算机视觉