day45

1. 为什么要用 Multi-Head Attention(多头注意力)?用一个大头不行吗?

  • 面试官潜台词: 你懂不懂"子空间特征捕捉"?

  • 绝杀点: * 视角互补: 不同的头可以关注序列中不同的依赖关系。比如一个头关注"主谓关系",另一个头关注"代词指代"。

    • 防止过拟合: 类似于集成学习(Ensemble),多头并行计算后拼接,能让模型在多个**表征子空间(Subspaces)**中学习信息,比单一维度的注意力更稳健。

    • 物理意义: 这就像是让 8 个人从 8 个不同的角度看同一段话,最后大家把看到的细节汇总。


2. 为什么 Transformer 偏爱 LayerNorm (LN) 而不是 BatchNorm (BN)?

  • 面试官潜台词: 你知道 NLP 序列数据的特殊性吗?

  • 绝杀点: * 变长序列: NLP 的句子长短不一。BN 是在 Batch 维度做归一化,如果 Batch 里的句子长度差异很大,BN 算的均值和方差就会剧烈抖动,极其不稳定。

    • 词的独立性: LN 是在"单个样本"的所有通道上做归一化。在 Transformer 中,每个 Token 的特征(Embedding)是相对独立的,LN 能保证每个词的表征都在一个合理的范围内,不受 Batch 大小和句子长度的影响。

3. 请用大白话解释 Q, K, V 的数学意义?

  • 面试官潜台词: 你是只会背公式,还是真的懂"寻址"逻辑?

  • 绝杀点: 这是一个**"图书馆检索"**系统:

    • Q (Query): 你的"搜索意图"(我想找什么?)。

    • K (Key): 书架上每本书的"标签/索引"(这组信息是什么?)。

    • V (Value): 书里的"具体内容"(这组信息具体是多少?)。

    • 过程:Q 去和所有的 K 计算相似度(打分),然后根据得分高低,去拿走对应的 V


4. 为什么计算 Attention Score 时要除以 \\sqrt{d_k}?(Scaled Dot-Product)

  • 面试官潜台词: 你对梯度消失和 Softmax 的数学本质理解吗?

  • 绝杀点: * 防止数值爆炸: 当维度 d_k 很大时,点积 Q \\cdot K\^T 的数值会变得非常大。

    • 保护梯度: 如果数值太大,经过 Softmax 之后,结果会落入"饱和区",导数几乎为 0(梯度消失)。

    • 稳定性: 除以 \\sqrt{d_k} 可以让点积后的分布方差重新变回 1,保证了 Softmax 函数的输出更平滑,让梯度回传更稳定。

Attention(Q, K, V) = Softmax(\\frac{QK\^T}{\\sqrt{d_k}})V


5. Transformer 的 Encoder 和 Decoder 在 Attention 上最大的区别是什么?

  • 面试官潜台词: 你懂"因果屏蔽(Masking)"吗?

  • 绝杀点: * Encoder: 使用的是双向自注意力。每个词都能看到全句所有的词(上帝视角)。

    • Decoder: 使用的是掩码自注意力(Masked Self-Attention) 。由于生成任务是按照时间顺序的,模型不能"偷看"未来的词。所以我们会加一个三角矩阵(Look-ahead Mask),把未来的词强制屏蔽掉,保证生成时的因果性

@z浙大疏锦行

相关推荐
构建的乐趣1 小时前
测度(Measure)和概率测度(Probability Measure) 测度和度量的区别
python
清水白石0081 小时前
把事故变成护城河:如何设计回归测试,防止“订单重复创建”这类历史 Bug 卷土重来?
python·bug
狐狐生风1 小时前
LangGraph 工具调用集成
python·langchain·prompt·agent·langgraph
MATLAB代码顾问1 小时前
【智能优化】无穷优化算法(INFO)原理与Python实现
开发语言·python·算法
SilentSamsara1 小时前
迭代器协议:`__iter__` / `__next__` 的完整执行流程
开发语言·人工智能·python·算法·机器学习
yuanpan1 小时前
Python + psutil 实战:开发一个简易系统监控工具
linux·运维·python
MATLAB代码顾问2 小时前
【智能优化】鹈鹕优化算法(POA)原理与Python实现
开发语言·python·算法
研究点啥好呢2 小时前
凯捷 自动化测试(Java+Selenium)面试题精选:10道高频考题+答案解析
java·开发语言·python·selenium·测试工具·求职招聘
SilentSamsara2 小时前
生成器进阶:`yield from`、协程历史与双向通信
开发语言·python·青少年编程·pycharm
张二娃同学2 小时前
专栏第01篇_深度学习导论
人工智能·python·深度学习·cnn