RNN LSTM seq2seq 注意力机制 Transformer ,演化路径

它们之间的关系本质上是一段如何让模型更好地理解和生成序列数据的探索史。

下图清晰地勾勒了这一发展主线与核心思想:
RNN

基础序列建模
LSTM/GRU

解决长程依赖
Seq2Seq

编码器-解码器架构
注意力机制

动态对齐与信息检索
Transformer

完全基于自注意力

并行化革命
现代大语言模型基石

如GPT, BERT等

下面我们来详细解读每个关键节点:


1. RNN:序列建模的起点

  • 核心思想:引入"循环"结构,让网络具有"记忆",能够处理前一个时间步的信息,适用于变长序列。
  • 关键问题
    • 梯度消失/爆炸:在长序列上,信息(梯度)在反向传播时要么变得极小(消失),要么变得极大(爆炸),导致模型无法学习到长距离的依赖关系。
    • 顺序计算,无法并行:必须按时间步一步步计算,训练速度慢。

2. LSTM/GRU:RNN的"记忆增强"升级版

  • 核心思想:通过精巧的"门控机制"(输入门、遗忘门、输出门),有选择地保留长期记忆和更新短期记忆。
  • 与RNN的关系 :是RNN的一种特殊、更强大的结构。解决了标准RNN的长程依赖问题,成为2014-2017年间序列建模(尤其是NLP)的绝对主力。

3. Seq2Seq:Encoder-Decoder架构的典范

  • 核心思想 :由两个RNN(通常是LSTM)组成。
    • 编码器 :将整个输入序列压缩成一个固定长度的上下文向量
    • 解码器:根据这个上下文向量,逐步生成输出序列。
  • 应用:机器翻译、文本摘要等"序列到序列"的任务。
  • 关键瓶颈
    • 信息瓶颈:强迫将所有输入信息压缩进一个固定长度的向量,当输入序列很长时,必然导致信息丢失。
    • 对齐问题:解码器每个时间步只能看到同一个上下文向量,无法在生成不同输出词时,动态地关注输入序列的不同部分。

4. 注意力机制:解决信息瓶颈的革命性思想

  • 核心思想丢弃单一的固定上下文向量 。解码器在生成每一个词时,都可以"回头看"编码器所有时间步的隐藏状态,并为其分配不同的权重(注意力分数),然后动态计算一个加权的上下文向量
  • 与Seq2Seq的关系 :是对Seq2Seq架构的增强和补丁 。它被"嫁接"在原始的Seq2Seq模型上,形成了 "基于注意力的Seq2Seq模型"
  • 意义
    1. 极大提升了长序列的性能,特别是机器翻译的BLEU分数。
    2. 提供了可解释性(注意力权重图可以看到模型在关注哪里)。
    3. 为Transformer铺平了道路。注意力机制证明了,不依赖循环网络,仅通过"查询-键-值"的机制也能建立序列元素间的联系。

5. Transformer:彻底告别循环,完全基于注意力

  • 核心思想
    1. 彻底抛弃RNN/LSTM的循环结构完全依赖自注意力机制和交叉注意力机制来建模序列内和序列间的依赖关系。
    2. 引入多头注意力:从多个子空间(多个"头")并行地捕捉不同类型的依赖关系(例如,语法、指代、语义关联)。
    3. 位置编码:由于没有循环,模型不知道词序。因此显式地注入位置信息。
    4. 纯前馈/矩阵运算:整个架构由注意力层和前馈神经网络层堆叠而成,没有任何循环。
  • 与之前模型的关系
    • 它不是RNN/LSTM的进化,而是一种革命性的替代架构
    • 吸收并放大了注意力机制的核心地位,将其从Seq2Seq的"补丁"变成了架构的"基石"。
  • 革命性优势
    • 极强的并行能力:自注意力是全局的矩阵运算,训练速度比RNN快一个数量级。
    • 超强的长程依赖建模能力:任何两个词的距离都是"1",彻底解决了梯度消失问题。
    • 可扩展性极强:为后来的大模型时代(数据、算力、模型尺寸的规模化)奠定了基础。

总结关系与发展逻辑

模型/技术 与前代的关系 解决的核心问题 带来的范式转变
RNN 起点 如何建模变长序列 循环连接
LSTM RNN的增强 RNN的长程依赖(梯度消失) 门控机制
Seq2Seq RNN/LSTM的应用框架 如何做序列到序列的转换 Encoder-Decoder架构
注意力机制 Seq2Seq的补丁 Seq2Seq的信息瓶颈与对齐 动态上下文与软对齐
Transformer 对前四者的革命性替代 RNN的顺序计算瓶颈与注意力作为补丁的局限性 完全基于注意力,并行化建模

简单来说,这条发展主线是
RNN(想处理序列但能力有限) → LSTM(增强了记忆能力) → Seq2Seq(用两个LSTM处理端到端任务) → +注意力机制(为Seq2Seq打上关键补丁,性能飞跃) → Transformer(发现注意力机制如此强大,干脆扔掉RNN,只用注意力重建整个架构,引发革命)。

相关推荐
chnyi6_ya3 小时前
论文阅读:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
论文阅读·深度学习·transformer
大江东去浪淘尽千古风流人物15 小时前
【HaMeR】全Transformer架构的单目3D手部网格重建:ViT-H骨干+跨注意力MANO解码器源码深度解析
深度学习·3d·transformer·vit·手部重建·mano
vensli16 小时前
AutoGLM vs 豆包手机:拆解两条 GUI Agent 的技术路线
人工智能·智能手机·transformer
zcg194217 小时前
如何在CV中使用transformer
人工智能·深度学习·transformer
zhangfeng113318 小时前
华为昇腾910A NPU 的模型加密方案 ASCEND-CC
开发语言·人工智能·神经网络·transformer
weixin_468466851 天前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
知识浅谈1 天前
Transformer 中的 Q、K、V 到底是什么?怎么理解 Query、Key、Value?
人工智能·深度学习·transformer
憨波个2 天前
【语音识别】Conformer: Convolution-augmented Transformer for Speech Recognition
人工智能·深度学习·transformer·语音识别
Mem0rin2 天前
[Agent基础]Agent、消息和聊天模板
人工智能·transformer
探物 AI2 天前
Mamba 会替代 Transformer 成为 AI 的下一代底层模型吗?
人工智能·深度学习·transformer