CNN、RNN与Self-Attention:定义、原理、复杂度与对比-AI轮回基本原理复习3

CNN、RNN与Self-Attention:定义、原理、复杂度与对比

一、序列建模的背景与核心挑战

自然语言处理、语音识别、时间序列预测 等场景中,数据均以有序序列 形式存在,模型需要完成「输入序列→输出序列」的映射。

典型示例:语句 X=(x1,x2,x3,x4)X=(x_1,x_2,x_3,x_4)X=(x1,x2,x3,x4),分别对应单词 I、love、deep、learning。

序列建模两大核心难题:

  1. 长距离依赖 :序列远端元素存在语义关联(如代词it指代前文animal),模型需捕捉远距离依赖关系;
  2. 计算效率:序列长度增大时,计算量易爆炸,要求网络兼顾速度、可训练性与长依赖建模能力。

二、卷积神经网络 CNN

2.1 定义与应用

卷积神经网络(Convolutional Neural Network, CNN)依托局部感受野 +参数共享提取局部特征,最早用于图像领域,后拓展至NLP、语音、时序分析。

2.2 核心思想

序列中单个元素的语义主要由相邻局部窗口决定,仅聚焦周边少量元素即可完成特征提取。

2.3 一维卷积计算逻辑

设卷积核尺寸为 kkk,卷积窗口在序列上滑动,逐窗口计算输出:

yi=∑j=0k−1wj⋅xi+j y_i = \sum_{j=0}^{k-1} w_j \cdot x_{i+j} yi=j=0∑k−1wj⋅xi+j

wjw_jwj 为卷积核参数,kkk 为窗口大小。

2.4 时间复杂度:O(knd2)\boldsymbol{O(knd^2)}O(knd2)

  • 单窗口计算:输入维度 kdkdkd,权重矩阵运算复杂度 O(kd2)O(kd^2)O(kd2);
  • 整条序列共 nnn 个计算位置,整体复杂度为 O(knd2)O(knd^2)O(knd2)。

2.5 优缺点

  • 优点:支持并行计算、训练速度快、参数共享、参数量小;
  • 缺点:感受野受卷积核限制,天生难以建模长距离依赖,需堆叠多层卷积扩大视野。

三、循环神经网络 RNN

3.1 定义与核心思想

循环神经网络(Recurrent Neural Network, RNN)通过递归隐藏状态逐时序处理序列,当前时刻输出同时依赖当前输入与历史记忆。

隐藏状态更新核心式:

ht=f(xt,ht−1) h_t = f(x_t, h_{t-1}) ht=f(xt,ht−1)

3.2 计算公式

ht=Whht−1+Wxxt h_t = W_h h_{t-1} + W_x x_t ht=Whht−1+Wxxt

Wh∈Rd×dW_h\in\mathbb{R}^{d\times d}Wh∈Rd×d、Wx∈Rd×dW_x\in\mathbb{R}^{d\times d}Wx∈Rd×d 为可学习权重,ddd 为隐藏层维度。

3.3 时间复杂度:O(nd2)\boldsymbol{O(nd^2)}O(nd2)

  • 单时间步隐藏状态更新:矩阵运算复杂度 O(d2)O(d^2)O(d2);
  • 序列共 nnn 个时序步,整体复杂度 O(nd2)O(nd^2)O(nd2)。

3.4 核心缺陷

信息沿时序单向递归传递,权重矩阵反复连乘,极易引发梯度消失/梯度爆炸长距离依赖建模能力极差;同时串行执行,无法并行计算,推理训练速度慢。


四、自注意力机制 Self-Attention

4.1 定义与设计初衷

自注意力机制直接计算序列任意两个元素 的关联度,让每个元素全局感知整个序列。

设计目标:解决CNN局部视野受限、RNN信息传递路径过长的问题。

4.2 Q/K/V 映射

将输入序列线性变换得到三组向量:

Q=XWQ,K=XWK,V=XWV Q=XW_Q,\quad K=XW_K,\quad V=XW_V Q=XWQ,K=XWK,V=XWV

  • Query(Q):当前元素要匹配的内容;
  • Key(K):序列元素的标识特征;
  • Value(V):序列元素承载的语义信息。

4.3 三步计算流程

  1. 计算相关性 :S=QKTS = QK^\mathrm{T}S=QKT,得到元素间原始相似度矩阵;
  2. 缩放+归一化 :A=Softmax(QKTd)A = \mathrm{Softmax}\left(\frac{QK^\mathrm{T}}{\sqrt{d}}\right)A=Softmax(d QKT),得到注意力权重分布;
  3. 加权融合 :O=AVO = AVO=AV,依据权重聚合全局信息。

4.4 时间复杂度:O(n2d)\boldsymbol{O(n^2d)}O(n2d)

Q,K∈Rn×dQ,K\in\mathbb{R}^{n\times d}Q,K∈Rn×d,矩阵乘法 QKTQK^\mathrm{T}QKT 输出 n×nn\times nn×n 矩阵:

  • 序列共 nnn 个元素,两两交互总计 n2n^2n2 组关系;
  • 每组关系为 ddd 维向量点积,整体复杂度 O(n2d)O(n^2d)O(n2d)。

4.5 特点

具备全局建模能力 ,元素间信息传播路径最短;但复杂度随序列长度 nnn 平方增长,长序列下计算开销极大。


五、信息最长传播路径对比

路径长度:信息从一个元素传递到另一元素所需的计算步数

模型 信息传播路径长度 说明
CNN O(n/k)O(n/k)O(n/k) 局部逐层传递,依赖多层卷积叠加扩大范围
RNN O(n)O(n)O(n) 时序串行传递,距离越远路径越长
Self-Attention O(1)O(1)O(1) 元素直接相连,全局一步互通

六、三大模型综合对比表

模型 信息传播方式 时间复杂度 最长传播路径 核心特性
CNN 局部窗口传播 O(knd2)O(knd^2)O(knd2) O(n/k)O(n/k)O(n/k) 并行快、视野局部、难学长依赖
RNN 时序递归传播 O(nd2)O(nd^2)O(nd2) O(n)O(n)O(n) 保留时序、无法并行、易梯度问题
Self-Attention 全局全连接传播 O(n2d)O(n^2d)O(n2d) O(1)O(1)O(1) 全局建模强、长依赖最优、长序列算力高

七、整体总结

  1. 建模视野差异

    • CNN:仅关注相邻 kkk 个局部元素;
    • RNN:沿时序单向承接前序状态,视野随时间逐步累积;
    • Self-Attention:直接关联序列所有元素,实现全局视野。
  2. 取舍与应用

    • CNN:适合短序列、侧重局部特征、追求计算速度的场景;
    • RNN/LSTM/GRU:适合强时序逻辑、序列长度适中的场景;
    • 自注意力(Transformer):全局建模能力最强,是 BERT、GPT、Llama、通义千问等主流大语言模型的核心架构,也是当前NLP领域的主流方案。
相关推荐
Angelina_Jolie1 小时前
DiCLIP:用扩散模型激活CLIP的密集知识,弱监督语义分割新SOTA
人工智能
-山中问答-1 小时前
【AI智能体工程化实战02】Harness工程化方法——像造汽车一样造Agent
人工智能·智能体·harness工程
andafaAPS1 小时前
安达发|汽车零部件行业aps生产排程:人工排产之困到智能调度之变
大数据·人工智能·汽车·aps生产排程·计划排产软件·自动排单软件
径硕科技JINGdigital1 小时前
甄选 B2B 的 GEO 优化服务商:为何监测平台搭配落地服务才是优选?
人工智能
王小王-1231 小时前
基于深度学习的景区口碑情感分析可视化系统
人工智能·深度学习·bert·情感分析·关键词提取·主题分析·景区评论分析
Promise微笑1 小时前
精准微阻测量:微欧计的分类、场景应用与高效选型决策指南
大数据·运维·网络·人工智能
武子康1 小时前
Qwen3-TTS 模型如何选择:稳定音色、方言支持与克隆服务的工程化取舍
人工智能·aigc
yinghuoAI20261 小时前
AI虚拟模特试衣:零成本高效展示
人工智能
rsuhbsrjms1 小时前
可视耳勺靠谱吗?无线可视挖耳勺安全吗?口碑好的可视耳勺
人工智能·安全