随写transformer

53年7月11天2024-08-27 11:53

作为针对序列建模的模型，RNN，LSTM在以序列为主要呈现形式的NLP任务上展现出远超CNN的卓越性能。但是仍有缺陷：

RNN为单向依序计算，序列需要依次输入，串行计算，限制了计算机的并行计算能力，导致时间成本过高。
RNN难以捕捉长期依赖 问题，即对于极长的序列，RNN难以捕捉远距离输入 之间的关系。虽然LSTM通过门机制对此进行了一定优化，但RNN对长期依赖问题的捕捉能力仍然不如人意。

针对上述两个问题，2017年，Vaswani 等人发表了论文**《Attention Is All You Need》** ，抛弃了传统的 CNN、RNN 架构，提出了一种全新的完全基于 attention 机制 的模型------Transformer ，解决了上述问题，在较小的时间成本下取得了多个任务的 the-state-of-art效果，并为自然语言处理任务提供了新的思路。

自此，attention 机制进入自然语言处理任务的主流架构，在 Transformer 的基础上，诞生了预训练-微调范式 的多种经典模型如 Bert、GPT、T5 等。当然，同样是在 Transformer 的肩膀上，引入了 RLHF 机制 、实现了大量参数建模的 ChatGPT 则带领 NLP 进入了全新的大模型时代。

但不管是预训练-微调范式的主流模型 Bert，还是大模型时代的主流模型 ChatGPT、LLaMA，Transformer 都是其最坚实的基座。

注意力公式Q与K乘积进行放缩的原因：

如果Q和K对应的维度比较大，softmax放缩时就非常容易受影响，使不同值之间的差异较大，从而影响梯度的稳定性，因此，要将Q和K乘积的结果做一个放缩。