NLP 04(GRU)

一、GRU

GRU (Gated Recurrent Unit)也称门控循环单元结构,它也是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联缓解梯度消失或爆炸现象同时它的结构和计算要比LSTM更简单,它的核心结构可以分为两个部分去解析:

更新门、重置门

GRU的内部结构图和计算公式:

1.1 更新门&重置门

Bi-GRU与Bi-LSTM的逻辑相同,都是不改变其内部结构,而是将模型应用两次且方向不同,再将两次得到的LSTM结果进行拼接作为最终输出

二、GRU优缺点

  • 优点

GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统RNN且计算复杂度相比LSTM要小

  • 缺点

GRU仍然不能完全解决梯度消失问题,同时其作用RNN的变体,有着RNN结构本身的一大弊端,即不可并行计算,这在数据量和模型体量逐步增大的未来,是RNN发展的关键瓶颈。

相关推荐
盼小辉丶44 分钟前
深度解析强化学习:原理、算法与实战
深度学习·强化学习
Jeson-y2 小时前
PointNet++语义分割(semseg)训练自己的数据集并完成可视化并保存txt结果
图像处理·深度学习
大神薯条老师4 小时前
Python高级爬虫之js逆向+安卓逆向1.3节:Python数据类型
爬虫·python·深度学习·机器学习·数据分析·网络爬虫
AI街潜水的八角5 小时前
深度学习图像分类数据集—枣子水果成熟度分类
人工智能·深度学习·分类
仙人掌_lz8 小时前
利用python从零实现Byte Pair Encoding(BPE):NLP 中的“变形金刚”
开发语言·python·gpt·自然语言处理·llm·token·deepseek
羊小猪~~8 小时前
深度学习项目--分组卷积与ResNext网络实验探究(pytorch复现)
网络·人工智能·pytorch·python·深度学习·神经网络·机器学习
liruiqiang0512 小时前
神经网络 - 关于简单的激活函数的思考总结
人工智能·深度学习·神经网络·机器学习
点我头像干啥13 小时前
第1节:计算机视觉发展简史
人工智能·深度学习·神经网络·计算机视觉
_一条咸鱼_15 小时前
深入剖析 AI 大模型的反向传播原理
人工智能·深度学习·机器学习