【人工智能】深度学习：神经网络模型

公式表示为： ht=f(Wihxt+Whhht−1+bh)h_t = f(W_{ih}x_t + W_{hh}h_{t-1} + b_h)ht=f(Wihxt+Whhht−1+bh) yt=g(Whoht+bo)y_t = g(W_{ho}h_t + b_o)yt=g(Whoht+bo) 其中，fff是隐藏层的激活函数，ggg是输出层的激活函数，WWW和bbb分别是权重和偏置项。

LSTM（长短期记忆网络）模型

LSTM是一种改进的RNN，能够有效解决长期依赖问题。其通过引入记忆单元和门控机制，控制信息的保留和遗忘。

LSTM结构

LSTM的基本结构包括：

遗忘门（Forget Gate）：决定是否丢弃上一时间步的记忆
输入门（Input Gate）：决定是否接受当前时间步的输入
记忆单元（Memory Cell）：保留重要信息
输出门（Output Gate）：决定输出哪些信息

公式表示为： ft=σ(Wf⋅[ht−1,xt]+bf)f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)ft=σ(Wf⋅[ht−1,xt]+bf) it=σ(Wi⋅[ht−1,xt]+bi)i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)it=σ(Wi⋅[ht−1,xt]+bi) C~t=tanh⁡(WC⋅[ht−1,xt]+bC)\tilde{C}t = \tanh(W_C \cdot [h{t-1}, x_t] + b_C)C~t=tanh(WC⋅[ht−1,xt]+bC) Ct=ft⋅Ct−1+it⋅C~tC_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C}tCt=ft⋅Ct−1+it⋅C~t ot=σ(Wo⋅[ht−1,xt]+bo)o_t = \sigma(W_o \cdot [h{t-1}, x_t] + b_o)ot=σ(Wo⋅[ht−1,xt]+bo) ht=ot⋅tanh⁡(Ct)h_t = o_t \cdot \tanh(C_t)ht=ot⋅tanh(Ct)

GRU模型

GRU（Gated Recurrent Unit）是一种简化的LSTM模型，减少了计算复杂度，保留了LSTM的长短期记忆能力。

GRU结构

GRU的基本结构包括：

重置门（Reset Gate）：控制如何合并新输入和前一个时间步的记忆
更新门（Update Gate）：控制如何更新当前时间步的状态

公式表示为： rt=σ(Wr⋅[ht−1,xt]+br)r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)rt=σ(Wr⋅[ht−1,xt]+br) zt=σ(Wz⋅[ht−1,xt]+bz)z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)zt=σ(Wz⋅[ht−1,xt]+bz) h~t=tanh⁡(Wh⋅[rt⋅ht−1,xt]+bh)\tilde{h}t = \tanh(W_h \cdot [r_t \cdot h{t-1}, x_t] + b_h)h~t=tanh(Wh⋅[rt⋅ht−1,xt]+bh) ht=(1−zt)⋅ht−1+zt⋅h~th_t = (1 - z_t) \cdot h_{t-1} + z_t \cdot \tilde{h}_tht=(1−zt)⋅ht−1+zt⋅h~t

计算重置门rtr_trt和候选状态h~t\tilde{h}_th~t

重置门rtr_trt控制前一个时间步的隐藏状态如何影响当前时间步的候选状态： rt=σ(Wr⋅[ht−1,xt]+br)r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)rt=σ(Wr⋅[ht−1,xt]+br) 候选状态h~t\tilde{h}_th~t是当前时间步的潜在新信息： h~t=tanh⁡(Wh⋅[rt⋅ht−1,xt]+bh)\tilde{h}t = \tanh(W_h \cdot [r_t \cdot h{t-1}, x_t] + b_h)h~t=tanh(Wh⋅[rt⋅ht−1,xt]+bh)

计算更新门ztz_tzt和当前状态hth_tht

更新门ztz_tzt决定当前时间步的隐藏状态如何更新： zt=σ(Wz⋅[ht−1,xt]+bz)z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)zt=σ(Wz⋅[ht−1,xt]+bz) 当前时间步的隐藏状态hth_tht通过前一个隐藏状态和当前候选状态的加权和计算： ht=(1−zt)⋅ht−1+zt⋅h~th_t = (1 - z_t) \cdot h_{t-1} + z_t \cdot \tilde{h}_tht=(1−zt)⋅ht−1+zt⋅h~t

这些模型和概念构成了神经网络在图像识别、自然语言处理等领域的基础和核心技术。

🌟感谢支持听忆.-CSDN博客

|--------------------|
| 🎈众口难调🎈从心就好 |

【人工智能】深度学习：神经网络模型

神经网络基础知识

BP神经网络的概念

单个神经元的结构

CNN模型汇总

LeNet5 模型

AlexNet 模型

VGG模型

Inception Net（GoogleNet）模型

ResNet （残差网络）

RNN模型（循环神经网络）

为什么需要RNN

RNN结构