五、循环神经网络语言模型(RNN)

1 循环神经网络基础知识

  • 循环核(Recurrent Cell)定义: 指在时刻 t 时的神经网络单元,用来处理当前时刻的输入和上一时刻的隐藏状态,并生成当前时刻的输出和下一时刻的隐藏状态。
  • 记忆体(Memory)定义: 指网络中的隐藏状态在处理序列数据时具有记忆功能,可以捕捉到序列数据中的长期依赖关系,能够保存当前时刻之前的信息,并传递到当前时刻。

2 循环神经网络定义

循环神经网络(Recurrent Neural Network, RNN),又称为递归神经网络(Recursive Neural Network, RNN)是一种用于处理具有序列关系数据的网络。
RNN的本质就像人一样拥有记忆的能力,表现为网络会对当前时刻之前的序列信息进行记忆并应用于当前时刻输出的计算中。

在序列的演进方向进行递归运算,其中隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括当前时刻输入层的输出还包括上一时刻隐藏层的输出。

3 循环神经网络原理图

RNN数学推导及其python代码实现

  • 前向传播时:记忆体内存储的状态信息ht,在每个时刻都被刷新,三个参数矩阵Wxh, Whh, Why自始至终都是固定不变的。
  • 反向传播时:三个参数矩阵Wxh, Whh, Why被梯度下降算法更新。

4 循环神经网络缺点

但是RNN循环神经网络会出现深度神经网络中的梯度消失问题:

RNN的权重是共享的。每一时刻都由前面所有时刻共同决定,是一个相加的过程,这样的话就有个问题,当距离长了,计算最前面的导数时,最前面的导数就会消失或爆炸,而当前时刻整体的梯度并不会消失,因为它是求和的过程,当下的梯度总会在,只是前面的梯度没了,因此更新时,由于权值共享,所以整体的梯度还是会更新。参考RNN
通常人们所说的梯度消失指的是当下梯度更新时,用不到前面的信息了,因为距离长了,前面的梯度就会消失,也就是没有前面的信息了,但要知道,整体的梯度并不会消失因为当下的梯度还在,并没有消失。
RNN 所谓梯度消失的真正含义是,梯度被近距离梯度主导,导致模型难以学到远距离的依赖关系,存在长期依赖问题,只能处理我们需要较接近的上下文的情况。

相关推荐
slomay1 小时前
关于对比学习(简单整理
经验分享·深度学习·学习·机器学习
zmjia1112 小时前
AI大语言模型进阶应用及模型优化、本地化部署、从0-1搭建、智能体构建技术
人工智能·语言模型·自然语言处理
AI完全体2 小时前
【AI知识点】偏差-方差权衡(Bias-Variance Tradeoff)
人工智能·深度学习·神经网络·机器学习·过拟合·模型复杂度·偏差-方差
sp_fyf_20242 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02
人工智能·神经网络·算法·计算机视觉·语言模型·自然语言处理·数据挖掘
新缸中之脑2 小时前
Ollama 运行视觉语言模型LLaVA
人工智能·语言模型·自然语言处理
卷心菜小温3 小时前
【BUG】P-tuningv2微调ChatGLM2-6B时所踩的坑
python·深度学习·语言模型·nlp·bug
陈苏同学3 小时前
4. 将pycharm本地项目同步到(Linux)服务器上——深度学习·科研实践·从0到1
linux·服务器·ide·人工智能·python·深度学习·pycharm
FL16238631294 小时前
[深度学习][python]yolov11+bytetrack+pyqt5实现目标追踪
深度学习·qt·yolo
羊小猪~~4 小时前
深度学习项目----用LSTM模型预测股价(包含LSTM网络简介,代码数据均可下载)
pytorch·python·rnn·深度学习·机器学习·数据分析·lstm
龙的爹23334 小时前
论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust
人工智能·gpt·深度学习·语言模型·自然语言处理·prompt