平安大模型面试题：Self-Attention 原理与多头注意力设计

大家好，最近这一两周不少公司已秋招中。

不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。

最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

总结如下：

《大模型面试宝典》(2025版) 正式发布

如果说 Transformer 是大模型的地基，那么 Self-Attention（自注意力机制） 就是整个地基的钢筋水泥。它不仅是面试考察的重中之重，更是问题最密集、最深入、花样最多的环节。几乎所有大厂面试官都会围着"注意力"穷追猛打，从原理到公式，从直观解释到代码实现，甚至追问到缩放因子和 Mask 的细节。今天我们就来拆开看个明白。

一、自注意力机制的核心逻辑

面试官经典开场白是："请详细解释 Self-Attention 的原理"。

你的回答要做到三点：通俗、完整、公式准确。

1. 通俗解释 QKV

Query（查询）：当前词想找什么信息。
Key（键）：序列中其他词能提供的"信息标签"。
Value（值）：这些词的实际内容。

简单来说：Query 像是在提问"我需要什么"，Key 像是在举手说"我能提供什么"，Value 则是实际给出的答案。通过计算 Q 和 K 的相似度，就能决定该给每个 V 多大权重。

2. 计算流程你需要能一口气把整个流程说顺：

输入向量 → 线性变换得到 Q, K, V
计算注意力分数：Score = Q·Kᵀ
缩放：除以 √dₖ
Mask（可选）：屏蔽 Padding 或未来信息
Softmax：归一化得到注意力权重
加权求和：∑(weights·V)，得到最终输出

3. 数学公式这一句最好能脱口而出：

Attention(Q, K, V) = softmax(QKᵀ / √dₖ) V

别小看这行公式，面试官就靠它来判断你是"背概念"还是"真的懂"。

二、多头注意力的设计

如果只会讲 Self-Attention，还不够。面试官十有八九会接着问："为什么要用多头注意力？"

1. 动机（Why） 单头注意力，就像只用一个角度看问题；而多头注意力，允许模型在不同位置、不同子空间中同时关注信息。

有的头可能专注语法结构；
有的头可能专注语义关系；
有的头可能捕捉长距离依赖。

2. 过程（How）

输入向量经过线性投影，得到多个 Q、K、V 子空间；
拆分成 h 个"头"；
每个头独立计算 Self-Attention；
所有头的输出 concat 拼接在一起；
再经过一次线性变换，得到最终结果。

3. 维度变化举个例子：

输入维度 d_model = 512
设有 8 个头，每个头维度 d_k = 64
每个头输出 64 维，拼接后还是 512 维
再通过线性层映射回 d_model

这一点很重要，面试官会抓住"维度匹配"来区分懂与不懂。

三、关键细节的深度追问

真正能区分选手水平的，是这类细节题：

1. 为什么分数要除以 √dₖ？

数学原理：当 dₖ 很大时，Q·Kᵀ 的结果方差会随之增大，导致分布过于陡峭。
实际效果：Softmax 会被推到饱和区，梯度接近 0，训练极不稳定。
解决方法：除以 √dₖ，把方差稳定在 1 附近，保证梯度平稳。

如果你能同时说出"数学原因 + 实际效果"，面试官会给你加分。

2. Mask 的作用是什么？

Padding Mask：忽略掉序列中的 padding token，避免无效信息干扰。
Causal/Look-ahead Mask：只在 Decoder 中用，防止预测当前位置时看到未来 token。

这一点是区分"会背书"和"能解释场景应用"的关键。

四、面试答题技巧

光懂原理还不够，要会答：

开场一句话总结： "Self-Attention 的核心是通过 Q、K、V 的点积计算序列内部依赖关系，输出是对所有 Value 的加权求和。"
补充公式：一边说，一边写公式。
画图解释：画出序列，箭头指来指去，让面试官直观感受到"谁在关注谁"。
延展思维：答完 Self-Attention，顺势引到 Multi-Head，说"单头可能只关注一个角度，所以用多头并行来捕捉不同关系"。

五、结语：注意力是大模型的灵魂

Transformer 的灵魂就在 Attention。能讲清楚 Self-Attention 和 Multi-Head，你的面试表现就已经比 70% 的候选人强。

别把公式当成背诵题，而要真正理解：Q 是问题，K 是标签，V 是答案。多头注意力，就是让模型从不同角度同时"看世界"。

下一次当面试官问你"为什么要除以 √dₖ"，你就能笑着回答："为了不让梯度消失。"

这才是面试官最想看到的答案。