五、循环神经网络语言模型(RNN)

1 循环神经网络基础知识

  • 循环核(Recurrent Cell)定义: 指在时刻 t 时的神经网络单元,用来处理当前时刻的输入和上一时刻的隐藏状态,并生成当前时刻的输出和下一时刻的隐藏状态。
  • 记忆体(Memory)定义: 指网络中的隐藏状态在处理序列数据时具有记忆功能,可以捕捉到序列数据中的长期依赖关系,能够保存当前时刻之前的信息,并传递到当前时刻。

2 循环神经网络定义

循环神经网络(Recurrent Neural Network, RNN),又称为递归神经网络(Recursive Neural Network, RNN)是一种用于处理具有序列关系数据的网络。
RNN的本质就像人一样拥有记忆的能力,表现为网络会对当前时刻之前的序列信息进行记忆并应用于当前时刻输出的计算中。

在序列的演进方向进行递归运算,其中隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括当前时刻输入层的输出还包括上一时刻隐藏层的输出。

3 循环神经网络原理图

RNN数学推导及其python代码实现

  • 前向传播时:记忆体内存储的状态信息ht,在每个时刻都被刷新,三个参数矩阵Wxh, Whh, Why自始至终都是固定不变的。
  • 反向传播时:三个参数矩阵Wxh, Whh, Why被梯度下降算法更新。

4 循环神经网络缺点

但是RNN循环神经网络会出现深度神经网络中的梯度消失问题:

RNN的权重是共享的。每一时刻都由前面所有时刻共同决定,是一个相加的过程,这样的话就有个问题,当距离长了,计算最前面的导数时,最前面的导数就会消失或爆炸,而当前时刻整体的梯度并不会消失,因为它是求和的过程,当下的梯度总会在,只是前面的梯度没了,因此更新时,由于权值共享,所以整体的梯度还是会更新。参考RNN
通常人们所说的梯度消失指的是当下梯度更新时,用不到前面的信息了,因为距离长了,前面的梯度就会消失,也就是没有前面的信息了,但要知道,整体的梯度并不会消失因为当下的梯度还在,并没有消失。
RNN 所谓梯度消失的真正含义是,梯度被近距离梯度主导,导致模型难以学到远距离的依赖关系,存在长期依赖问题,只能处理我们需要较接近的上下文的情况。

相关推荐
ppppppatrick7 分钟前
【深度学习基础篇12】从 GPT 到 DeepSeek:大模型的架构革命与工程美学
gpt·深度学习·架构
Shining059612 分钟前
前沿模型系列(三)《检索增强的语言模型》
人工智能·学习·其他·语言模型·自然语言处理·大模型·rag
路人与大师13 分钟前
大模型架构的真正主线:从统计语言模型到信息流控制系统
人工智能·语言模型·架构
&星痕&14 分钟前
从零开始手搓 (1)计算图 (c++,python语言实现)
c++·python·深度学习·机器学习
青禾木森21 分钟前
学习 AI 系列|初识 RAG:深入分析分块策略和向量的技术实现 02
深度学习
duyinbi751722 分钟前
多尺度空洞卷积分支模块改进YOLOv26感受野扩展与特征提取能力双重突破
深度学习·yolo·目标跟踪
忧郁的橙子.38 分钟前
04-自定义微调训练BERT模型效果测试 +中文八分类
人工智能·深度学习·bert·中文多分类模型训练
LSQ的测试日记44 分钟前
深度学习_目标检测,RCNN,Fast-RCNN和Faster-RCNN
人工智能·深度学习·目标检测
Peter·Pan爱编程1 小时前
第8节:多维网格——如何处理二维三维数据
人工智能·深度学习·计算机视觉
放下华子我只抽RuiKe51 小时前
机器学习核心算法全景指南
人工智能·python·深度学习·算法·机器学习·机器人·交互