卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention)对比

考虑同一个的问题:将由个词元组成的序列映射到另一个长度相同的序列,其中的每个输入词元或输出词元由维向量表示。

我们将比较能够解决上述问题的三种常用方法:卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention),从三个维度比较这三种架构:计算复杂度、顺序操作和最大路径长度。

其中,讨论顺序操作是因为顺序操作会妨碍并行计算。任意的序列位置组合之间的路径越短,越能更轻松地学习序列中的远距离依赖关系。

1、卷积神经网络(CNN)

考虑⼀个卷积核⼤⼩为的卷积层。(后续文章中将介绍关于使⽤卷积神经⽹络处理序列的详细信息)⽬前只需要知道的是,由于序列⻓度是,输⼊和输出的通道数量都是,所以卷积层的计算复杂度为。 如图所⽰,卷积神经⽹络是分层的,因此为有个顺序操作,最⼤路径⻓度为。例如,处于图中卷积核⼤⼩为3的双层卷积神经⽹络的感受野内。

2、循环神经网络(RNN)

当更新循环神经⽹络的隐状态时,权重矩阵和维隐状态的乘法计算复杂度为。由于序列⻓度为, 因此循环神经⽹络层的计算复杂度为。根据图,有个顺序操作⽆法并⾏化,最⼤路径⻓度 也是

3、自注意力(self-attention)

在⾃注意⼒中,查询、键和值都是矩阵。考虑缩放的"点-积"注意⼒,其中矩阵乘 以矩阵。之后输出的矩阵乘以矩阵。因此,⾃注意⼒具有计算复杂性。正如在图中所讲,每个词元都通过⾃注意⼒直接连接到任何其他词元。因此,有个顺序操作可以并⾏计算,最⼤路径⻓度也是

4、小结

总⽽⾔之,卷积神经⽹络和⾃注意⼒都拥有并⾏计算的优势,⽽且⾃注意⼒的最⼤路径⻓度最短,但是因为其计算复杂度是关于序列⻓度的⼆次⽅(⾃注意⼒具有计算复杂性),所以在很⻓的序列中计算会⾮常慢。

相关推荐
香蕉鼠片19 小时前
数字化图像的过程
人工智能·深度学习·计算机视觉
lqqjuly19 小时前
深度学习理论:从神经网络到Transformer—前馈网络、反向传播、注意力机制与训练
深度学习·神经网络·transformer
chsmiao20 小时前
张量(Tensor)
深度学习·ai编程
A_Sinon20 小时前
卷积神经网络
人工智能·神经网络·cnn
chsmiao21 小时前
深度学习之线性代数
人工智能·深度学习·线性代数
HyperAI超神经1 天前
MiniCPM5-1B采用RL+OPD训练,多项复杂任务达SOTA;面向复杂医疗业务自动化:医疗智能体评测数据集 CHI-Bench
人工智能·深度学习·ai·计算化学
一个王同学1 天前
从零到一 | CV转多模态大模型 | week12 | 整理 MiniLLaVA 工程与文档
人工智能·深度学习·算法·机器学习·计算机视觉
chsmiao1 天前
深度学习之微积分
人工智能·深度学习
阳明山水1 天前
LightGBM为何胜过Prophet做销量预测
人工智能·深度学习·机器学习·微信公众平台·微信开放平台
JeJe同学1 天前
LabelImg报错:IndexError: list index out of range 解决方法
深度学习·目标检测