吴恩达《深度学习》之拆解LSTM 与 GRU 的“记忆闸门”

今天我们终于来到了序列模型的终极进化形态------LSTM（长短期记忆网络） 与 GRU（门控循环单元）。

上一节我们聊到，标准的 RNN 拥有一颗"会循环的大脑"，但它有一个致命的、刻在微积分骨子里的阿喀琉斯之踵：健忘症（长期依赖问题）。当一个句子超过 30 个字，误差在反向传播时又会陷入"连乘地狱"，导致最开始的记忆在传到后面时彻底灰飞烟灭。

1997 年，科学家们给神经网络的大脑装上了一个划时代的结构：门（Gating Mechanism）。

核心知识点：

直觉解释： 通过"门"控机制精细控制信息的保留与遗忘，让神经网络能够拥有"长效记忆"，解决标准 RNN 难以捕捉长期依赖的问题。

数学核心： > 遗忘门：Γf=σ(Wf $a⟨t-1⟩,x⟨t⟩$ +bf)\Gamma_f = \sigma(W_f $a\^{\\langle t-1 \\rangle}, x\^{\\langle t \\rangle}$ + b_f)Γf=σ(Wf $a⟨t-1⟩,x⟨t⟩$ +bf)

细胞状态更新：c⟨t⟩=Γf∗c⟨t−1⟩+Γu∗c~⟨t⟩c^{\langle t \rangle} = \Gamma_f * c^{\langle t-1 \rangle} + \Gamma_u * \tilde{c}^{\langle t \rangle}c⟨t⟩=Γf∗c⟨t−1⟩+Γu∗c~⟨t⟩

常见变体及适用场景： GRU（结构更简单、计算更快）；适用于语音识别、机器翻译等长序列任务。

今天我们不看冰冷的公式，我带你走进一间"记忆垃圾分类处理厂"，看看这些"门"是如何精确操控人类历史记忆的。

第一步：寻找记忆的"免死金牌"------细胞状态 c⟨t⟩c^{\langle t \rangle}c⟨t⟩

在标准 RNN 里，记忆 a⟨t⟩a^{\langle t \rangle}a⟨t⟩ 每一秒都要乘以一个恐怖的权重矩阵 WaaW_{aa}Waa。乘一次，信息就被污染和衰减一次。

LSTM 做了一个神级改造：它开辟了一条独立于网络计算之外的、纯净的记忆传送带。这条传送带上的记忆，叫做细胞状态（Cell State） ，用 c⟨t⟩c^{\langle t \rangle}c⟨t⟩ 表示。

提问： 想象一下，这条传送带从时间的起点（t=1t=1t=1）一路滑向终点。一路上，没有任何矩阵乘法去直接揉碎它，信息只是静静地在上面流淌。

如果在这一路滑行的过程中，我们不做任何拦截、也不往里面掺任何新东西，那么第 100 秒时传送带终点的记忆，和第 1 秒时起点的记忆相比，会发生任何"衰减"或"遗忘"吗？

解析： 完全不会！它会百分之百原封不动地抵达。这就是长效记忆的底层物理通道。

但是，如果一条记忆传送带永远一成不变，它就变成了一条死水。为了让它动态变化，LSTM 在传送带旁边设立了两个最关键的安检关卡：遗忘门 与更新门。

第二步：解构"遗忘门（Forget Gate）"------扔掉垃圾

我们来看第一个数学核心公式：

Γf=σ(Wf $a⟨t-1⟩,x⟨t⟩$ +bf)\Gamma_f = \sigma(W_f $a\^{\\langle t-1 \\rangle}, x\^{\\langle t \\rangle}$ + b_f)Γf=σ(Wf $a⟨t-1⟩,x⟨t⟩$ +bf)

这个 Γf\Gamma_fΓf 就是遗忘门的开关系数。因为它穿过了 Sigmoid 激活函数，所以这个系数的值被死死锁在了 0 到 1 之间（例如 0.01 或者是 0.99）。

提问： 假设你正在读一本长篇侦探小说：

"张三在民国三年（1914年）出生于一个贫寒的家庭。......（此处省略一万字）...... 1945年，张三在胡同里遭遇了黑衣人的暗杀，不幸身亡。"

现在时间戳来到了最后一秒。你的大脑接收到了新刺激 x⟨t⟩x^{\langle t \rangle}x⟨t⟩（"遭遇暗杀身亡"）。为了腾出大脑空间，对于"张三出生于1914年"这个已经结束的历史记忆，你体内的遗忘门 Γf\Gamma_fΓf 应该自动闭合趋近于 0，还是全面敞开趋近于 1？为什么？

解析： 应该趋近于 0。因为这个人已经死了，他的生卒年对于接下来的剧情（抓捕凶手）已经不再重要了，属于需要被清理的"过期记忆"。

你盯着公式里的下一步看：

c⟨t⟩=Γf∗c⟨t−1⟩+...c^{\langle t \rangle} = \Gamma_f * c^{\langle t-1 \rangle} + \dotsc⟨t⟩=Γf∗c⟨t−1⟩+...

看这个星号（∗*∗，按元素位相乘）！如果遗忘门 Γf=0\Gamma_f = 0Γf=0，那么上一秒的记忆 c⟨t−1⟩×0=0c^{\langle t-1 \rangle} \times 0 = 0c⟨t−1⟩×0=0 ------ 过去的垃圾被瞬间一键格式化，完美扔掉！

第三步：解构"更新门与细胞状态大合体"

扔掉了旧垃圾，传送带继续往前滑。我们得往里面加点新鲜血液。这就是更新公式的后半部分：

c⟨t⟩=Γf∗c⟨t−1⟩+Γu∗c~⟨t⟩c^{\langle t \rangle} = \Gamma_f * c^{\langle t-1 \rangle} + \Gamma_u * \tilde{c}^{\langle t \rangle}c⟨t⟩=Γf∗c⟨t−1⟩+Γu∗c~⟨t⟩

c~⟨t⟩\tilde{c}^{\langle t \rangle}c~⟨t⟩：这是当前时刻由新发生的事（遭遇暗杀）提炼出来的"临时新记忆候选人"。
Γu\Gamma_uΓu（更新门 / Update Gate）：同样是一个 0 到 1 之间的 Sigmoid 系数。

提问： 听到"遭遇暗杀身亡"这个极度震惊、关乎破案的核心线索时，你的大脑会忽略它吗？这时候负责接收新知识的更新门 Γu\Gamma_uΓu 会长成什么样？

解析： 必定向 1 靠拢！于是，整个传送带的更新公式完美闭环：

全新记忆 c⟨t⟩=(遗忘门×旧记忆)+(更新门×新知识)\text{全新记忆 } c^{\langle t \rangle} = (\text{遗忘门} \times \text{旧记忆}) + (\text{更新门} \times \text{新知识})全新记忆 c⟨t⟩=(遗忘门×旧记忆)+(更新门×新知识)

通过这种"纯加法"的拼接结构（注意到中间那个大大的 +++ 号了吗？），LSTM 在反向传播求导时，导数天然就会包含一个不断相加的项，类似于 ResNet 里的保底机制。它彻底斩断了标准 RNN 的连乘地狱，把长距离的记忆完好无损地护送到了终点。

第四步：常见变体------为什么现在大家更爱 GRU？

卡片里提到了一个非常重要的后起之秀：GRU（门控循环单元，2014年提出）。

提问： LSTM 固然完美，但它有三个门（遗忘门、输入门、输出门），还要同时维护 c⟨t⟩c^{\langle t \rangle}c⟨t⟩ 和 a⟨t⟩a^{\langle t \rangle}a⟨t⟩ 两条传送带。如果我们要在一个超大网络里塞满 LSTM，显卡的计算负担和参数量会不会太重了？我们能不能给它"瘦个身"？

为了精简结构，科学家做出了两项极具极客精神的改造：

砍掉传送带： 强行把细胞状态 c⟨t⟩c^{\langle t \rangle}c⟨t⟩ 和隐藏状态 a⟨t⟩a^{\langle t \rangle}a⟨t⟩ 合二为一，只留一条记忆带。
门阀合并： 它把遗忘门和输入门合并成了一个单一的更新门（Update Gate）。

它的逻辑极具哲学美感："如果你选择记住 80% 的新知识（Γu=0.8\Gamma_u = 0.8Γu=0.8），那你天然就必须忘掉 80% 的旧记忆（1−Γu=0.21 - \Gamma_u = 0.21−Γu=0.2）。"

因为结构大大精简，GRU 的计算速度快得飞起，参数量暴降，但在实际长序列任务中，其效果往往和笨重的 LSTM 不分伯仲。

第五步：PyTorch 里的"长效记忆宫殿"落地

在 PyTorch 工业实战中，你只需要切换一个类名，就能享受长效记忆的红利：

python 复制代码

import torch
import torch.nn as nn

class MemoryModel(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(MemoryModel, self).__init__()
        # 换成 nn.LSTM，它会在后台自动维护 3 个门和 2 条状态线
        self.lstm = nn.LSTM(input_size, hidden_size, batch_first=True)
        
        # 如果想追求速度和轻量化，一键切换成 GRU 即可：
        # self.gru = nn.GRU(input_size, hidden_size, batch_first=True)

    def forward(self, x):
        # x: [Batch, Seq_Len, Input_Size]
        # LSTM 的最初记忆不仅需要全零的 h0，还需要全零的细胞状态 c0
        h0 = torch.zeros(1, x.size(0), self.hidden_size)
        c0 = torch.zeros(1, x.size(0), self.hidden_size)
        
        # 扔进网络，PyTorch 会自动在时间轴上为你进行极其复杂的"门控逻辑计算"
        out, (hn, cn) = self.lstm(x, (h0, c0))
        return out

总结报告

让我们用一行最硬核的极客因果链，复盘全序列记忆的本质：

引入独立传送带 c⟨t⟩ ⟹ 遗忘门过滤垃圾，更新门注入新知 ⟹ 纯加法无损传递机制 ⟹ 彻底抹杀长序列梯度消失 ⟹ 长效全序列记忆爆发\text{引入独立传送带 } c^{\langle t \rangle} \implies \text{遗忘门过滤垃圾，更新门注入新知} \implies \text{纯加法无损传递机制} \implies \text{彻底抹杀长序列梯度消失} \implies \text{长效全序列记忆爆发}引入独立传送带 c⟨t⟩⟹遗忘门过滤垃圾，更新门注入新知⟹纯加法无损传递机制⟹彻底抹杀长序列梯度消失⟹长效全序列记忆爆发

标准的 RNN 就像是一个不带备忘录的匆忙旅人，走着走着就把路口的风景忘光了；而 LSTM 与 GRU，则像是一个配备了高级精密的"记忆垃圾桶"与"高光标注文档"的智者。它知道在什么时候把不重要的历史尘埃付之一炬，在什么时候把字字珠玑的前沿线索牢牢锁在生命的传送带上。

到此为止，我们已经一起把经典的神经网络底层细胞与核心架构全部拆解完毕了。

欢迎在评论区留下你的思考： 尽管 LSTM 和 GRU 靠"门控机制"完美续命了循环神经网络，但在面对超长文本（如整本小说、几十万字的财报分析）时，它们依然逐渐被 Transformer（由 Attention 机制驱动）拉开了代差。你认为门控循环模型在处理"超长文本并行计算"时，最根本的工程缺陷在哪里？