NLP 04(GRU)

一、GRU

GRU (Gated Recurrent Unit)也称门控循环单元结构,它也是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联缓解梯度消失或爆炸现象同时它的结构和计算要比LSTM更简单,它的核心结构可以分为两个部分去解析:

更新门、重置门

GRU的内部结构图和计算公式:

1.1 更新门&重置门

Bi-GRU与Bi-LSTM的逻辑相同,都是不改变其内部结构,而是将模型应用两次且方向不同,再将两次得到的LSTM结果进行拼接作为最终输出

二、GRU优缺点

  • 优点

GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统RNN且计算复杂度相比LSTM要小

  • 缺点

GRU仍然不能完全解决梯度消失问题,同时其作用RNN的变体,有着RNN结构本身的一大弊端,即不可并行计算,这在数据量和模型体量逐步增大的未来,是RNN发展的关键瓶颈。

相关推荐
NG WING YIN19 分钟前
Golang關於信件的
开发语言·深度学习·golang
金井PRATHAMA30 分钟前
认知语义学中的象似性对人工智能自然语言处理深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
陈敬雷-充电了么-CEO兼CTO30 分钟前
突破多模态极限!InstructBLIP携指令微调革新视觉语言模型,X-InstructBLIP实现跨模态推理新高度
人工智能·自然语言处理·chatgpt·blip·clip·多模态大模型·gpt-5
大千AI助手1 小时前
残差:从统计学到深度学习的核心概念
人工智能·深度学习·resnet·统计学·方差分析·残差·残差分析
max5006002 小时前
使用OmniAvatar-14B模型实现照片和文字生成视频的完整指南
图像处理·人工智能·深度学习·算法·音视频
技术程序猿华锋2 小时前
深度解码OpenAI的2025野心:Codex重生与GPT-5 APIKey获取调用示例
人工智能·vscode·python·gpt·深度学习·编辑器
linjoe999 小时前
【Deep Learning】Ubuntu配置深度学习环境
人工智能·深度学习·ubuntu
先做个垃圾出来………10 小时前
残差连接的概念与作用
人工智能·算法·机器学习·语言模型·自然语言处理
Blossom.11813 小时前
从“能写”到“能干活”:大模型工具调用(Function-Calling)的工程化落地指南
数据库·人工智能·python·深度学习·机器学习·计算机视觉·oracle