RNN 和 Transformer 复杂度比较

这里假设BatchSize为 1,就是单样本的情况。

原始 RNN 块:

(1)单步计算 H,包含两个矩阵向量乘法,和一个激活,复杂度HidSize²

(2)一共有SeqLen步,所以整体复杂度SeqLen * HidSize²

LSTM 块:

(1)单步计算 F I C_hat O,包含八个矩阵向量乘法,和四个激活:HidSize²

(2)单步计算 C,包含两个逐元素乘法,和一个加法;HidSize²

(3)单步计算 H,包含一个逐元素乘法和一个激活;HidSize²

(4)一共有SeqLen步,所以整体复杂度SeqLen * HidSize²

TF 块:

(1)计算 QKV,包含三个矩阵乘法,SeqLen * HidSize²

(2)计算注意力矩阵,包含 HeadCount 个 矩阵乘法,HeadCount * HeadSize * SeqLen²

由于HidSize = HeadCount * HeadSize,实际上是HidSize * SeqLen²

(3)Softmax 激活,HeadCount * SeqLen² << HidSize * SeqLen²

(4)计算 O,包含HeadCount个矩阵乘法,HeadCount * HeadSize * SeqLen² = HidSize * SeqLen²

(5)计算输出向量,包含一个矩阵乘法SeqLen * HidSize²

(6)FFN ,两个矩阵乘法,SeqLen * HidSize²

(6)整体复杂度,SeqLen * HidSize² + HidSize * SeqLen²

HidSize是每层之间传输的嵌入向量的维度,大概几百维。

聊天的时候SeqLen大概几十到一百,明显低于HidSize,这个时候二者是差不多的。

长文本翻译的时候SeqLen是几千,那么 RNN 明显比 Transformer 快。

等于说,Transformer 的高复杂度缺点被并行掩盖了。在单机单卡这种不能并行的环境,效率远不如 RNN。这就是很多人一定要搞线性注意力的原因。

相关推荐
钢铁男儿3 分钟前
图像分割——区域增长
图像处理·人工智能·计算机视觉
敏编程4 分钟前
用文字“画出”状态图:用 AI+Mermaid.js 解决对象状态变化的处理问题
人工智能·mermaid
CodeIsCoding5 分钟前
鱼眼相机模型-MEI
人工智能·opencv·计算机视觉·相机
知白守黑V15 分钟前
从ChatGPT到代理AI:安全领域的新变革
人工智能·安全·生成对抗网络·网络安全·chatgpt·安全威胁分析·ai数据安全
IRevers23 分钟前
使用Python和Pybind11调用C++程序(CMake编译)
开发语言·c++·人工智能·python·深度学习
fakerth29 分钟前
目标检测标注图像
人工智能·目标检测·计算机视觉
学不会lostfound34 分钟前
三、计算机视觉_08YOLO目标检测
人工智能·深度学习·yolo·计算机视觉·检测任务
巴依老爷coder36 分钟前
YOLOX的正负样本分配问题
人工智能·yolo·计算机视觉·目标跟踪
没有不重的名么37 分钟前
DETR:End-to-End Object Detection with Transformers
人工智能·目标检测·计算机视觉
goomind38 分钟前
YOLOv8实战无人机视角目标检测
人工智能·yolo·目标检测·计算机视觉·无人机·pyqt5·无人机目标检测