卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention)对比

考虑同一个的问题:将由个词元组成的序列映射到另一个长度相同的序列,其中的每个输入词元或输出词元由维向量表示。

我们将比较能够解决上述问题的三种常用方法:卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention),从三个维度比较这三种架构:计算复杂度、顺序操作和最大路径长度。

其中,讨论顺序操作是因为顺序操作会妨碍并行计算。任意的序列位置组合之间的路径越短,越能更轻松地学习序列中的远距离依赖关系。

1、卷积神经网络(CNN)

考虑⼀个卷积核⼤⼩为的卷积层。(后续文章中将介绍关于使⽤卷积神经⽹络处理序列的详细信息)⽬前只需要知道的是,由于序列⻓度是,输⼊和输出的通道数量都是,所以卷积层的计算复杂度为。 如图所⽰,卷积神经⽹络是分层的,因此为有个顺序操作,最⼤路径⻓度为。例如,处于图中卷积核⼤⼩为3的双层卷积神经⽹络的感受野内。

2、循环神经网络(RNN)

当更新循环神经⽹络的隐状态时,权重矩阵和维隐状态的乘法计算复杂度为。由于序列⻓度为, 因此循环神经⽹络层的计算复杂度为。根据图,有个顺序操作⽆法并⾏化,最⼤路径⻓度 也是

3、自注意力(self-attention)

在⾃注意⼒中,查询、键和值都是矩阵。考虑缩放的"点-积"注意⼒,其中矩阵乘 以矩阵。之后输出的矩阵乘以矩阵。因此,⾃注意⼒具有计算复杂性。正如在图中所讲,每个词元都通过⾃注意⼒直接连接到任何其他词元。因此,有个顺序操作可以并⾏计算,最⼤路径⻓度也是

4、小结

总⽽⾔之,卷积神经⽹络和⾃注意⼒都拥有并⾏计算的优势,⽽且⾃注意⼒的最⼤路径⻓度最短,但是因为其计算复杂度是关于序列⻓度的⼆次⽅(⾃注意⼒具有计算复杂性),所以在很⻓的序列中计算会⾮常慢。

相关推荐
xiangzhihong832 分钟前
Amodal3R ,南洋理工推出的 3D 生成模型
人工智能·深度学习·计算机视觉
狂奔solar1 小时前
diffusion-vas 提升遮挡区域的分割精度
人工智能·深度学习
fantasy_arch4 小时前
深度学习--softmax回归
人工智能·深度学习·回归
Blossom.1185 小时前
量子计算与经典计算的融合与未来
人工智能·深度学习·机器学习·计算机视觉·量子计算
硅谷秋水5 小时前
MoLe-VLA:通过混合层实现的动态跳层视觉-语言-动作模型实现高效机器人操作
人工智能·深度学习·机器学习·计算机视觉·语言模型·机器人
2301_764441335 小时前
基于神经网络的肾脏疾病预测模型
人工智能·深度学习·神经网络
HABuo6 小时前
【YOLOv8】YOLOv8改进系列(12)----替换主干网络之StarNet
人工智能·深度学习·yolo·目标检测·计算机视觉
Dovis(誓平步青云)6 小时前
深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本
人工智能·深度学习·机器学习·数据挖掘·服务发现·智慧城市
赵钰老师7 小时前
【Deepseek、ChatGPT】智能气候前沿:AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测中的应用
人工智能·python·深度学习·机器学习·数据分析
Start_Present9 小时前
Pytorch 第十三回:神经网络编码器——自动编解码器
pytorch·python·深度学习·神经网络