双向 LSTM(Bidirectional LSTM)与普通 LSTM 公式过程

双向 LSTM(Bidirectional LSTM)与普通 LSTM 有类似的公式过程,但有一些细微的差别。LSTM 是一种循环神经网络(RNN),用于处理序列数据。它具有一个门控机制,可以捕捉长期依赖关系。

双向 LSTM 结构中有两个 LSTM 层,一个从前向后处理序列,另一个从后向前处理序列。这样,模型可以同时利用前面和后面的上下文信息。在处理序列时,每个时间步的输入会被分别传递给两个 LSTM 层,然后它们的输出会被合并。

具体而言,双向 LSTM 的公式过程如下:

  • 前向 LSTM:

    • 输入门(input gate): i t = σ ( W i x x t + W i h h t − 1 + b i ) i_t = \sigma(W_{ix}x_t + W_{ih}h_{t-1} + b_i) it=σ(Wixxt+Wihht−1+bi)
    • 遗忘门(forget gate): f t = σ ( W f x x t + W f h h t − 1 + b f ) f_t = \sigma(W_{fx}x_t + W_{fh}h_{t-1} + b_f) ft=σ(Wfxxt+Wfhht−1+bf)
    • 细胞状态(cell state)更新: C ~ t = tanh ( W c x x t + W c h h t − 1 + b c ) \tilde{C}t = \text{tanh}(W{cx}x_t + W_{ch}h_{t-1} + b_c) C~t=tanh(Wcxxt+Wchht−1+bc)
    • 细胞状态(cell state): C t = f t ⊙ C t − 1 + i t ⊙ C ~ t C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t Ct=ft⊙Ct−1+it⊙C~t
    • 输出门(output gate): o t = σ ( W o x x t + W o h h t − 1 + b o ) o_t = \sigma(W_{ox}x_t + W_{oh}h_{t-1} + b_o) ot=σ(Woxxt+Wohht−1+bo)
    • 隐状态(hidden state): h t = o t ⊙ tanh ( C t ) h_t = o_t \odot \text{tanh}(C_t) ht=ot⊙tanh(Ct)
  • 后向 LSTM:

    • 输入门(input gate): i t ′ = σ ( W i x ′ x t + W i h ′ h t + 1 ′ + b i ′ ) i't = \sigma(W'{ix}x_t + W'{ih}h'{t+1} + b'_i) it′=σ(Wix′xt+Wih′ht+1′+bi′)
    • 遗忘门(forget gate): f t ′ = σ ( W f x ′ x t + W f h ′ h t + 1 ′ + b f ′ ) f't = \sigma(W'{fx}x_t + W'{fh}h'{t+1} + b'_f) ft′=σ(Wfx′xt+Wfh′ht+1′+bf′)
    • 细胞状态(cell state)更新: C ~ t ′ = tanh ( W c x ′ x t + W c h ′ h t + 1 ′ + b c ′ ) \tilde{C}'t = \text{tanh}(W'{cx}x_t + W'{ch}h'{t+1} + b'_c) C~t′=tanh(Wcx′xt+Wch′ht+1′+bc′)
    • 细胞状态(cell state): C t ′ = f t ′ ⊙ C t + 1 ′ + i t ′ ⊙ C ~ t ′ C'_t = f't \odot C'{t+1} + i'_t \odot \tilde{C}'_t Ct′=ft′⊙Ct+1′+it′⊙C~t′
    • 输出门(output gate): o t ′ = σ ( W o x ′ x t + W o h ′ h t + 1 ′ + b o ′ ) o't = \sigma(W'{ox}x_t + W'{oh}h'{t+1} + b'_o) ot′=σ(Wox′xt+Woh′ht+1′+bo′)
    • 隐状态(hidden state): h t ′ = o t ′ ⊙ tanh ( C t ′ ) h'_t = o'_t \odot \text{tanh}(C'_t) ht′=ot′⊙tanh(Ct′)

其中, x t x_t xt 是输入序列的第 t t t 个时间步的向量表示, h t h_t ht 是前向 LSTM 在第 t t t 个时间步的隐状态, h t + 1 ′ h'{t+1} ht+1′ 是后向 LSTM 在第 t t t 个时间步的隐状态, C t C_t Ct 是前向 LSTM 在第 t t t 个时间步的细胞状态, C t + 1 ′ C'{t+1} Ct+1′ 是后向 LSTM 在第 t t t 个时间步的细胞状态。 W W W 和 b b b 是模型的参数, σ \sigma σ 是 sigmoid 函数, ⊙ \odot ⊙ 表示逐元素相乘。

通过双向 LSTM,我们可以获得更全面的序列信息,有助于提高模型在序列任务中的性能。

相关推荐
Unity官方开发者社区1 小时前
团结引擎动画系统|Event Graph CodeGen:一键编译图逻辑,提升运行时性能
深度学习
湘美书院--湘美谈教育2 小时前
湘美谈教育AI经验集锦:有些东西,它们很难蒸馏
大数据·人工智能·深度学习·机器学习
xixixi777772 小时前
空天地通信、高速光模块、AI 智能体攻击、同态加密芯片四大事件解读:AI 算力底座攻防与全域通信同步升级
大数据·人工智能·深度学习·ai·大模型·光模块·智能体
快乐得小萝卜2 小时前
论文:π0.5
笔记·深度学习
路人甲3262 小时前
SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
人工智能·深度学习·计算机视觉·机器人·具身智能
湘美书院--湘美谈教育2 小时前
湘美谈教育AI经验集锦:细分领域的标准定义者
大数据·人工智能·深度学习
keykey6.3 小时前
迁移学习实战:用预训练模型做图像分类
开发语言·人工智能·深度学习·机器学习
装不满的克莱因瓶3 小时前
深入PyTorch模型的训练与可视化 —— 掌握迁移学习等模型训练效果提升的办法
人工智能·pytorch·python·深度学习·神经网络·ai·迁移学习
大江东去浪淘尽千古风流人物3 小时前
【VGGT-Ω】前馈式3D重建的规模化之路:Register Attention、自监督训练与10B参数Scaling Law深度解析
深度学习·计算机视觉·transformer·slam·vio·3d重建
Wenzar_4 小时前
用 JAX 构建可微分光子神经网络仿真器
java·人工智能·深度学习·神经网络