卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention)对比

考虑同一个的问题:将由个词元组成的序列映射到另一个长度相同的序列,其中的每个输入词元或输出词元由维向量表示。

我们将比较能够解决上述问题的三种常用方法:卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention),从三个维度比较这三种架构:计算复杂度、顺序操作和最大路径长度。

其中,讨论顺序操作是因为顺序操作会妨碍并行计算。任意的序列位置组合之间的路径越短,越能更轻松地学习序列中的远距离依赖关系。

1、卷积神经网络(CNN)

考虑⼀个卷积核⼤⼩为的卷积层。(后续文章中将介绍关于使⽤卷积神经⽹络处理序列的详细信息)⽬前只需要知道的是,由于序列⻓度是,输⼊和输出的通道数量都是,所以卷积层的计算复杂度为。 如图所⽰,卷积神经⽹络是分层的,因此为有个顺序操作,最⼤路径⻓度为。例如,处于图中卷积核⼤⼩为3的双层卷积神经⽹络的感受野内。

2、循环神经网络(RNN)

当更新循环神经⽹络的隐状态时,权重矩阵和维隐状态的乘法计算复杂度为。由于序列⻓度为, 因此循环神经⽹络层的计算复杂度为。根据图,有个顺序操作⽆法并⾏化,最⼤路径⻓度 也是

3、自注意力(self-attention)

在⾃注意⼒中,查询、键和值都是矩阵。考虑缩放的"点-积"注意⼒,其中矩阵乘 以矩阵。之后输出的矩阵乘以矩阵。因此,⾃注意⼒具有计算复杂性。正如在图中所讲,每个词元都通过⾃注意⼒直接连接到任何其他词元。因此,有个顺序操作可以并⾏计算,最⼤路径⻓度也是

4、小结

总⽽⾔之,卷积神经⽹络和⾃注意⼒都拥有并⾏计算的优势,⽽且⾃注意⼒的最⼤路径⻓度最短,但是因为其计算复杂度是关于序列⻓度的⼆次⽅(⾃注意⼒具有计算复杂性),所以在很⻓的序列中计算会⾮常慢。

相关推荐
盼小辉丶15 小时前
TensorFlow深度学习实战——胶囊网络
深度学习·tensorflow·keras
doubao3618 小时前
如何有效降低AIGC生成内容被识别的概率?
人工智能·深度学习·自然语言处理·aigc·ai写作
Danceful_YJ20 小时前
31.注意力评分函数
pytorch·python·深度学习
xier_ran1 天前
深度学习:神经网络中的参数和超参数
人工智能·深度学习
8Qi81 天前
伪装图像生成之——GAN与Diffusion
人工智能·深度学习·神经网络·生成对抗网络·图像生成·伪装图像生成
思通数科多模态大模型1 天前
扑灭斗殴的火苗:AI智能守护如何为校园安全保驾护航
大数据·人工智能·深度学习·安全·目标检测·计算机视觉·数据挖掘
xixixi777771 天前
了解一下LSTM:长短期记忆网络(改进的RNN)
人工智能·深度学习·机器学习
能来帮帮蒟蒻吗1 天前
深度学习(1)—— 基本概念
人工智能·深度学习
LeonDL1681 天前
基于YOLO11深度学习的电动车头盔检测系统【Python源码+Pyqt5界面+数据集+安装使用教程+训练代码】【附下载链接】
人工智能·python·深度学习·pyqt5·yolo数据集·电动车头盔检测系统·yolo11深度学习
carver w1 天前
彻底理解传统卷积,深度可分离卷积
人工智能·深度学习·计算机视觉