2.1 注意力机制
2.1.1 注意力机制
- RNN 及 LSTM 的缺陷 :序列计算限制并行能力与长距离依赖捕捉问题,可参考原始分析:《Attention is All You Need》(Vaswani 等,2017)。
- 注意力机制起源 :计算机视觉领域提出,早期相关研究可参考:《Neural Models of Visual Attention》(Itti 等,1998)。
2.1.2 注意力机制计算公式
- 词向量点积相似度计算 :基于分布式语义表示理论,可参考 Word2Vec 原始论文:《Distributed Representations of Words and Phrases and their Compositionality》(Mikolov 等,2013)。
- 注意力机制核心公式 :源自 Transformer 原始架构推导,详见:《Attention is All You Need》Section 3.2。
2.1.3 注意力机制代码实现
- PyTorch 实现参考 :代码逻辑基于官方张量运算文档,相关接口说明:
torch.matmul
:PyTorch 矩阵乘法文档math.sqrt
:Python 数学库文档
- 开源实现灵感来源 :类似 Hugging Face Transformers 库的基础注意力模块:transformers.models.attention。
2.1.4 自注意力机制
- Encoder 自注意力应用 :Transformer 编码器核心设计,原始论文描述:《Attention is All You Need》Figure 1。
- QKV 参数矩阵推导 :可参考深度学习框架中的线性层实现原理,如 PyTorch
nn.Linear
:官方文档。
2.1.5 掩码自注意力
- 自回归生成逻辑 :GPT 等模型的核心机制,参考:《Improving Language Understanding by Generative Pre-Training》(Radford 等,2018)。
- 掩码矩阵实现 :上三角掩码的数学原理可参考序列生成任务经典处理方法:《Sequence to Sequence Learning with Neural Networks》(Sutskever 等,2014)。
2.1.6 多头注意力机制
- 多头注意力实验验证 :原始论文通过可视化展示不同头的语义捕捉能力:《Attention is All You Need》Figure 2。
- 并行计算优化 :矩阵运算优化思路参考深度学习高效实现技巧:《The Illustrated Transformer》(Jalammar,2018)。
其他参考资源
- 开源教程 :
- 《动手学深度学习》Transformer 章节:D2L.ai
- 注意力机制可视化解析:The Illustrated Attention Mechanism(Jalammar,2019)
- 代码仓库 :
- Transformer 基础实现(PyTorch):github.com/karpathy/nanoGPT
- Hugging Face Transformers 源码:github.com/huggingface/transformers