RNN 和 Transformer 复杂度比较

绝不原创的飞龙2024-01-13 16:49

这里假设BatchSize为 1，就是单样本的情况。

原始 RNN 块：

（1）单步计算 H，包含两个矩阵向量乘法，和一个激活，复杂度HidSize²

（2）一共有SeqLen步，所以整体复杂度SeqLen * HidSize²

LSTM 块：

（1）单步计算 F I C_hat O，包含八个矩阵向量乘法，和四个激活：HidSize²

（2）单步计算 C，包含两个逐元素乘法，和一个加法；HidSize²

（3）单步计算 H，包含一个逐元素乘法和一个激活；HidSize²

（4）一共有SeqLen步，所以整体复杂度SeqLen * HidSize²

TF 块：

（1）计算 QKV，包含三个矩阵乘法，SeqLen * HidSize²

（2）计算注意力矩阵，包含 HeadCount 个矩阵乘法，HeadCount * HeadSize * SeqLen²

由于HidSize = HeadCount * HeadSize，实际上是HidSize * SeqLen²

（3）Softmax 激活，HeadCount * SeqLen² << HidSize * SeqLen²

（4）计算 O，包含HeadCount个矩阵乘法，HeadCount * HeadSize * SeqLen² = HidSize * SeqLen²

（5）计算输出向量，包含一个矩阵乘法SeqLen * HidSize²

（6）FFN ，两个矩阵乘法，SeqLen * HidSize²

（6）整体复杂度，SeqLen * HidSize² + HidSize * SeqLen²

HidSize是每层之间传输的嵌入向量的维度，大概几百维。

聊天的时候SeqLen大概几十到一百，明显低于HidSize，这个时候二者是差不多的。

长文本翻译的时候SeqLen是几千，那么 RNN 明显比 Transformer 快。

等于说，Transformer 的高复杂度缺点被并行掩盖了。在单机单卡这种不能并行的环境，效率远不如 RNN。这就是很多人一定要搞线性注意力的原因。