NLP 04(GRU)

一、GRU

GRU (Gated Recurrent Unit)也称门控循环单元结构,它也是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联缓解梯度消失或爆炸现象同时它的结构和计算要比LSTM更简单,它的核心结构可以分为两个部分去解析:

更新门、重置门

GRU的内部结构图和计算公式:

1.1 更新门&重置门

Bi-GRU与Bi-LSTM的逻辑相同,都是不改变其内部结构,而是将模型应用两次且方向不同,再将两次得到的LSTM结果进行拼接作为最终输出

二、GRU优缺点

  • 优点

GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统RNN且计算复杂度相比LSTM要小

  • 缺点

GRU仍然不能完全解决梯度消失问题,同时其作用RNN的变体,有着RNN结构本身的一大弊端,即不可并行计算,这在数据量和模型体量逐步增大的未来,是RNN发展的关键瓶颈。

相关推荐
笑脸惹桃花1 小时前
目标检测数据集——路面裂缝检测数据集
人工智能·深度学习·yolo·目标检测·计算机视觉·数据集
leafff1231 小时前
【大模型】多模态大语言模型(MLLMs):架构演进、能力评估与应用拓展的全面解析
人工智能·语言模型·自然语言处理
骥龙1 小时前
2.4、恶意软件猎手:基于深度学习的二进制文件判别
人工智能·深度学习·网络安全
hans汉斯2 小时前
【计算机科学与应用】基于BERT与DeepSeek大模型的智能舆论监控系统设计
大数据·人工智能·深度学习·算法·自然语言处理·bert·去噪
开放知识图谱2 小时前
论文浅尝 | 图约束推理:在知识图谱上实现大语言模型的忠实推理(ICML2025)
人工智能·语言模型·自然语言处理·知识图谱
清风与日月4 小时前
halcon分类器使用标准流程
深度学习·目标检测·计算机视觉
西西阿西哥4 小时前
【随便聊聊】和ChatGPT聊聊潜空间
深度学习·chatgpt
CAD老兵5 小时前
量化技术:如何让你的 3D 模型和 AI 模型瘦身又飞快
人工智能·深度学习·机器学习
算法与编程之美5 小时前
探索不同的优化器对分类精度的影响和卷积层的输入输出的shape的计算公式
人工智能·深度学习·机器学习·分类·数据挖掘
大千AI助手5 小时前
微软SPARTA框架:高效稀疏注意力机制详解
人工智能·深度学习·神经网络·llm·大千ai助手·sparta·稀疏注意力机制