【pytorch】现代循环神经网络-2

1 双向循环神经网络(Bi-RNN)

具有单个隐藏层的双向循环神经网络的架构如图所示:

对于任意时间步t,给定一个小批量的输入数据 Xt ∈ Rn×d (样本数n,每个示例中的输入数d),并且令隐藏层激活函数为ϕ。在双向架构中,我们设该时间步的前向和反向隐状态分别为 →Ht ∈ Rn×h和←Ht ∈ Rn×h,其中h是隐藏单元的数目。前向和反向隐状态的更新如下:

将前向隐状态→Ht 和反向隐状态←Ht连接起来,获得需要送入输出层的隐状态Ht ∈ Rn×2h。在具有多个隐藏层的深度双向循环神经网络中,该信息作为输入传递到下一个双向层。最后,输出层计算得到的输出为 Ot ∈ Rn×q(q是输出单元的数目):

双向循环神经网络的一个关键特性是:使用来自序列两端的信息来估计输出。也就是说,我们使用来自过去和未来的观测信息来预测当前的观测。存在问题如下:

(1)在训练期间,我们能够利用过去和未来的数据来估计现在空缺的词;而在测试期间,我们只有过去的数据,因此精度将会很差。

(2)双向循环神经网络的计算速度非常慢。其主要原因是网络的前向传播需要在双向层中进行前向和后向递归,并且网络的反向传播还依赖于前向传播的结果。因此,梯度求解将有一个非常长的链。

**双向层的使用在实践中非常少,并且仅仅应用于部分场合。**例如,填充缺失的单词、词元注释(例如,用于命名实体识别)以及作为序列处理流水线中的一个步骤对序列进行编码(例如,用于机器翻译)。

相关推荐
deephub8 分钟前
TOON:专为 LLM 设计的轻量级数据格式
人工智能·prompt·大语言模型
咚咚王者25 分钟前
人工智能之数据分析 numpy:第五章 索引与切片
人工智能·数据分析·numpy
yy_xzz36 分钟前
【OpenCV + VS】C++实现动态下雪特效
c++·人工智能·opencv
扬道财经1 小时前
从百度分析师到GEO理论奠基人,罗小军探索AI搜索营销新路径
人工智能·百度·dubbo
xuehaisj1 小时前
菠萝蜜果实目标检测_yolo11-C3k2-ConvFormer改进
人工智能·目标检测·目标跟踪
月下倩影时1 小时前
视觉学习篇——模型推理部署:从“炼丹”到“上桌”
人工智能·深度学习·学习
夕小瑶1 小时前
从无形IP到AI万象,安谋科技Arm China“周易”X3 NPU 发布!
人工智能·科技·tcp/ip
陈天伟教授1 小时前
人工智能技术-人工智能与科学-03 预测分子性能
人工智能
【建模先锋】1 小时前
基于密集连接的DenseNet故障诊断模型:实现高鲁棒性的深度故障诊断
人工智能·cnn·信号处理·故障诊断·轴承故障诊断·西储大学数据集
余俊晖2 小时前
英伟达开源多模态视觉语言模型-Nemotron Nano V2 VL模型架构、训练方法、训练数据
人工智能·算法·语言模型·自然语言处理·多模态