五、循环神经网络语言模型(RNN)

1 循环神经网络基础知识

  • 循环核(Recurrent Cell)定义: 指在时刻 t 时的神经网络单元,用来处理当前时刻的输入和上一时刻的隐藏状态,并生成当前时刻的输出和下一时刻的隐藏状态。
  • 记忆体(Memory)定义: 指网络中的隐藏状态在处理序列数据时具有记忆功能,可以捕捉到序列数据中的长期依赖关系,能够保存当前时刻之前的信息,并传递到当前时刻。

2 循环神经网络定义

循环神经网络(Recurrent Neural Network, RNN),又称为递归神经网络(Recursive Neural Network, RNN)是一种用于处理具有序列关系数据的网络。
RNN的本质就像人一样拥有记忆的能力,表现为网络会对当前时刻之前的序列信息进行记忆并应用于当前时刻输出的计算中。

在序列的演进方向进行递归运算,其中隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括当前时刻输入层的输出还包括上一时刻隐藏层的输出。

3 循环神经网络原理图

RNN数学推导及其python代码实现

  • 前向传播时:记忆体内存储的状态信息ht,在每个时刻都被刷新,三个参数矩阵Wxh, Whh, Why自始至终都是固定不变的。
  • 反向传播时:三个参数矩阵Wxh, Whh, Why被梯度下降算法更新。

4 循环神经网络缺点

但是RNN循环神经网络会出现深度神经网络中的梯度消失问题:

RNN的权重是共享的。每一时刻都由前面所有时刻共同决定,是一个相加的过程,这样的话就有个问题,当距离长了,计算最前面的导数时,最前面的导数就会消失或爆炸,而当前时刻整体的梯度并不会消失,因为它是求和的过程,当下的梯度总会在,只是前面的梯度没了,因此更新时,由于权值共享,所以整体的梯度还是会更新。参考RNN
通常人们所说的梯度消失指的是当下梯度更新时,用不到前面的信息了,因为距离长了,前面的梯度就会消失,也就是没有前面的信息了,但要知道,整体的梯度并不会消失因为当下的梯度还在,并没有消失。
RNN 所谓梯度消失的真正含义是,梯度被近距离梯度主导,导致模型难以学到远距离的依赖关系,存在长期依赖问题,只能处理我们需要较接近的上下文的情况。

相关推荐
Lihua奏16 小时前
从单核到多核:CPU为什么不能再只靠提频变快
深度学习
拾年27517 小时前
大模型的"聪明"从哪来?聊聊 AI 数据集的那些事儿
人工智能·深度学习·机器学习
饼干哥哥5 天前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
武子康7 天前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“
人工智能·深度学习·openai
武子康8 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai
xiao5kou4chang6kai414 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
renhongxia114 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC14 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
大鱼>14 天前
大语言模型+物联网:LLM理解物理世界
物联网·struts·语言模型·多模态·aiot
AndrewHZ14 天前
【LLM技术全景】大模型能力探秘:In-Context Learning与思维链(CoT)
人工智能·语言模型·大模型·llm·cot·思维链·icl