关键词解释：点积（Dot Product）在深度学习中的意义

【【Transformer】最强动画讲解！目前B站最全最详细的Transformer教程，2025最新版！从理论到实战，通俗易懂解释原理，草履虫都学的会！】https://www.bilibili.com/video/BV1fGeAz6Eie?p=6&vd_source=e14fbfa32a7c9167af15da4f1666253a

下面我们从基础概念到实际应用，一步步帮你深入理解"点积"在大模型中的意义。

两个向量的点积（也叫内积）定义为：

✅ 所以：点积越大 → 两个向量越相似

在 Transformer 的 Self-Attention 中，点积用于计算一个词对其他词的"关注度"。

注意力得分 = Query 和 Key 的相似度 → 用点积计算！

其中：

假设我们有句子："I love AI and I love NLP"

我们想计算第一个 "love" 对其他词的关注度。

当前词 "love" 的 Query 向量：[0, 1]

计算点积：

→ 模型发现 "love" 和自己最相似，其次是 "AI"，几乎不关注 "I"。

经过 softmax 后，会把"love"和"AI"分配较高的注意力权重。

方法	优缺点
点积	快速、可并行、适合 GPU 计算；但数值随维度增大而变大 → 需要缩放 d_kd_k
余弦相似度	已归一化，只看方向；但计算更复杂
加性注意力	更灵活，但参数多、慢

Transformer 选择缩放点积注意力 （Scaled Dot-Product Attention）是因为：高效 + 可扩展