Day32_【 NLP _2.RNN及其变体 _(3) GRU】

门控循环单元(GRU, Gated Recurrent Unit),它是循环神经网络(RNN)的一种重要变体,旨在解决传统RNN的长期依赖问题

优点缺点与前一小节LSTM一样,但结构更简单

一、结构

分为重置门和更新门

1.重置门

作用在上一个隐藏状态

2.更新门

重置后的上一个隐藏状态与当前值的输入更新门门值-->线性变换tanh激活-->未更新h

--> +((1-更新门门值)*上一个隐藏状态)-->更新后的h

集合重置门的输入,对当前输入进行内部计算,对结果进行输出

二、API

复制代码
nn.GRU(input_size, hidden_size, num_layers)   
input = (seq_len, batch_size, input_size) 
h0 = (num_layers, batch_size, hidden_size)
相关推荐
Hcoco_me3 小时前
大模型面试题61:Flash Attention中online softmax(在线softmax)的实现方式
人工智能·深度学习·自然语言处理·transformer·vllm
P-ShineBeam7 小时前
引导式问答-对话式商品搜索-TRACER
人工智能·语言模型·自然语言处理·知识图谱
All The Way North-8 小时前
RNN基本介绍
rnn·深度学习·nlp·循环神经网络·时间序列
ldccorpora9 小时前
Multiple-Translation Arabic (MTA) Part 2数据集介绍,官网编号LDC2005T05
人工智能·深度学习·自然语言处理·动态规划·语音识别
aopstudio10 小时前
Jinja 是什么?为什么大模型的聊天模板使用它?
自然语言处理·llm·jinja
狮子座明仔12 小时前
DocDancer:北大联合腾讯提出端到端训练的文档问答Agent,将DocQA形式化为信息寻求过程
人工智能·深度学习·语言模型·自然语言处理
丝斯201115 小时前
AI学习笔记整理(43)——NLP之大规模预训练模型BERT
人工智能·学习·自然语言处理
拌面jiang15 小时前
Word2Vec词嵌入模型
人工智能·自然语言处理·word2vec
Study99616 小时前
大语言模型的详解与训练
人工智能·ai·语言模型·自然语言处理·大模型·llm·agent
lkbhua莱克瓦2417 小时前
大语言模型的非技术漫游指南
人工智能·语言模型·自然语言处理