Transformer 视频学习笔记

Transformer

一、这一讲视频到底讲了什么

这段视频主要讲的是 Transformer 的整体结构，以及输入嵌入层、编码器、解码器、输出层这四大模块分别在做什么 。

如果用一句话总结：

Transformer 的核心不是"按时间一步一步处理序列"，而是通过自注意力机制并行建模全局依赖，再通过位置编码补上顺序信息。

这和 RNN、LSTM 的最大区别在于：

RNN/LSTM 是顺序处理，天然有时序感
Transformer 是并行处理，天然擅长全局关联，但必须显式建模顺序

对你来说，这一讲最重要的不是背结构图，而是要真正理解这四个问题：

为什么 Transformer 不需要循环也能处理序列
为什么它一定需要位置编码
多头注意力为什么比单头注意力更强
Transformer 的思想对你们"匝道汇入决策 + LSTM + Modern-TCN + 认知层级博弈"有什么启发，但为什么你们没有直接采用纯 Transformer

你后面整理的论文关联也很到位，重点确实应该落在：因果性、交叉注意力、长时依赖、Softmax、可解释性、工程取舍 这些点上。

同时，你们论文当前的核心结构仍然是 历史状态池 + EWMA + LSTM 融合 ，再加上 滑动时间窗 + Modern-TCN 做更长范围的时序建模，因此 Transformer 更适合被你作为"方法比较对象"和"建模思想来源"来讲，而不是说成论文主干。

二、Transformer 的整体结构

2.1 四大层结构

Transformer 可以拆成四大层：

输入嵌入层
编码器
解码器
输出层

最适合背的一句是：

Transformer 的整体流程是：先把输入变成向量，再通过编码器提取全局语义表示，解码器基于编码结果逐步生成输出，最后由输出层映射成具体词。

2.2 输入嵌入层

输入嵌入层的任务是：把人类可读的符号，变成模型可计算的向量表示。

它主要包括三部分：

（1）词嵌入

词嵌入的作用，是把离散的文字或 token 变成连续向量。

比如"超""人"两个字，会分别映射成两个固定维度的向量。

词嵌入矩阵本质上是一个巨大的可训练参数表：

每一行对应一个 token
每一列对应一个特征维度
训练过程中，这些向量会不断更新，使语义相近的词向量更接近

最适合背的一句是：

词嵌入的本质，是把离散符号映射成连续语义向量。

（2）Q、K、V 的生成

在 Transformer 中，每个输入向量还会进一步通过不同权重矩阵映射成三个向量：

Q（Query）：查询，表示"我要找什么"
K（Key）：键，表示"我有什么标签可供匹配"
V（Value）：值，表示"我真正携带的内容"

也就是说，同一个输入向量会被映射出三种不同角色。

最适合背的一句是：

Q 决定关注什么，K 决定如何匹配，V 决定最终提取什么内容。

（3）位置编码

因为 Transformer 是并行处理所有 token 的，所以它天然不知道"谁在前、谁在后"。

这就是为什么必须加位置编码。

位置编码的本质，就是把顺序信息显式加入到输入表示中。

最终输入向量是：

词嵌入向量 + 位置编码向量

最适合背的一句是：

Transformer 天然不感知顺序，所以必须靠位置编码把时序信息显式注入进去。

这一点和你们论文里的时序处理逻辑有明显呼应：你们虽然没直接用位置编码，但你们通过 滑动时间窗、EWMA、LSTM、TCN 这些机制，已经在显式建模时序顺序和时间权重了。

三、编码器的核心结构

编码器的任务是：把输入序列加工成包含全局上下文信息的语义表示。

一个标准编码器层主要包含三部分：

多头自注意力
残差连接 + 层归一化
前馈神经网络
再次残差连接 + 层归一化

最适合背的一句是：

编码器的核心，是通过自注意力让每个位置都能看到全局上下文，再通过前馈网络做深层特征加工。

3.1 多头自注意力机制

核心思想

多头注意力不是只用一个注意力机制去看全局，而是让多个独立的头，从多个角度同时建模关系。

例如在"超人"这个例子里：

一个头可能更关注语义组合关系
一个头可能更关注属性特征
还有的头可能关注上下文依赖、修饰关系、情感关联等

所以多头注意力的优势是：

它可以同时从多个子空间、多种视角捕捉特征间的关联。

最适合背的一句是：

多头注意力的本质，是多个独立头从不同表示子空间同时学习不同类型的关系。

计算流程

注意力的计算流程本质上是：

用 Q 和 K 做点积，算出相关性分数
除以 (\sqrt{d_k}) 进行缩放
用 Softmax 归一化成概率分布
用这个概率分布去对 V 加权求和

所以你可以用一句话概括：

注意力机制的本质，是让每个位置从全局范围内动态选择对当前最重要的信息。

为什么要缩放

如果 Q 和 K 的点积过大，Softmax 会过于尖锐，梯度会变差，训练不稳定。

所以要除以 (\sqrt{d_k})。

最适合背的一句是：

缩放是为了防止点积过大导致 Softmax 过度饱和，从而影响梯度和训练稳定性。

3.2 残差连接与层归一化

残差连接

残差连接的作用有三个：

保留原始输入特征
缓解深层训练困难
减轻梯度消失

也就是说，注意力机制虽然提取了新信息，但不能把原始信息完全覆盖掉，所以需要一条"直连通路"把原始输入加回来。

最适合背的一句是：

残差连接的作用，是让模型在学习新表示的同时，不丢掉原始特征。

层归一化

层归一化的作用是：

统一不同特征维度的尺度
稳定训练过程
提高收敛速度和泛化能力

和 BatchNorm 相比，LayerNorm 更适合序列模型，因为它不依赖 batch 维度统计。

最适合背的一句是：

层归一化的作用，是让每层输入分布更稳定，从而提高深层网络训练稳定性。

3.3 前馈神经网络

编码器中的前馈神经网络一般是：

一层升维
激活函数
一层降维

作用不是建模序列依赖，而是：

对每个位置的特征做更深层的非线性加工。

所以你要把它和注意力机制区分开：

注意力负责信息交互
前馈网络负责特征深加工

最适合背的一句是：

注意力负责"看谁重要"，前馈网络负责"把提取出来的特征再加工得更深"。

四、解码器与输出层

4.1 解码器的任务

解码器的任务是：利用编码器提取好的语义信息，逐步生成目标序列。

它比编码器多了两个非常关键的模块：

掩码多头自注意力
交叉注意力

4.2 掩码多头自注意力

掩码多头自注意力的作用是：

在生成当前词时，不允许模型偷看未来词。

比如生成"超"时，模型不能提前看到"人""讲""深度学习"。

这本质上是：

普通多头自注意力 + 因果掩码

最适合背的一句是：

因果掩码的作用，是保证解码过程满足时间因果顺序，当前时刻只能依赖过去和当前信息，不能依赖未来信息。

这点和你们论文里的时序因果性是很相关的。你整理得对：

在匝道汇入决策里，当前时刻的决策不能"偷看未来的主路车行为"，这和因果掩码的思想是一致的。你们论文中通过 历史状态池 + EWMA + LSTM，本质上也在做"只能依赖历史"的时序约束。

4.3 交叉注意力

交叉注意力的核心作用是：

把编码器理解到的输入语义，和解码器当前正在生成的内容对齐。

更直白地说：

解码器现在要生成一个词
它会拿自己的 Q 去问编码器：
"输入里哪些信息和我现在要生成的内容最相关？"
编码器提供 K 和 V，供它查询和取值

最适合背的一句是：

交叉注意力的作用，是让解码器生成内容时始终和输入语义保持对齐，避免跑题。

你后面整理的论文映射非常好，这一点在你们任务里可以类比为：

SV 的当前状态作为 Query
FV 的历史状态或主路环境编码作为 Key/Value
通过这种动态匹配，决定当前决策时更该关注哪些外部交互信息

所以可以直接对应到：

交叉注意力提升双车交互的一致性和意图对齐能力。

4.4 输出层与 Softmax

输出层的任务是：

先把隐藏向量通过线性层映射到词表维度
再通过 Softmax 转成概率分布
最后选择概率最大的词作为输出

Softmax 的作用就是：

把任意实数分数转成 0 到 1 之间、总和为 1 的概率分布。

最适合背的一句是：

Softmax 的本质，是把模型输出的 logits 转成可解释的概率分布。

五、视频内容与论文的关联

这部分是你面试时最该讲出"研究思考感"的地方。

5.1 输入嵌入层与论文的关联

视频里的词嵌入可以类比到你们论文中的状态表示：

车辆位置
速度
加速度
相对距离
驾驶员行为特征
潜变量（激进性、认知层级等）

也就是说，在自动驾驶任务里，我们也需要把原始状态"嵌入"成模型可学习的连续表示。

最适合背的一句是：

类比词嵌入，我们在自动驾驶中也需要把车辆轨迹状态和驾驶行为特征映射成连续向量表示，才能让模型学习不同交互模式的"语义关系"。

5.2 位置编码与论文的关联

Transformer 用位置编码解决"并行处理没顺序感"的问题。

你们论文虽然没有直接用 Transformer 位置编码，但已经通过以下机制实现了类似功能：

滑动时间窗
EWMA
LSTM
Modern-TCN

所以很适合这样说：

Transformer 用位置编码显式注入顺序信息，而我们通过滑动时间窗、EWMA 和 LSTM/TCN 显式建模轨迹时序和时间权重。

这句话很适合背。

5.3 多头注意力与论文的关联

这是最值得拔高的地方。

多头注意力的思想，和你们论文中的双车交互、认知层级博弈非常容易类比。

可以这么理解：

一个"头"关注位置关系
一个"头"关注速度差
一个"头"关注加速度趋势
一个"头"关注激进性变化
一个"头"关注不同认知层级下的策略变化

所以可以这样讲：

多头注意力启发我们，在双车交互决策中不能只从单一维度理解关系，而要从位置、速度、加速度、激进性和策略层级等多个角度同时建模交互。

这句话非常适合面试。

5.4 因果掩码与论文的关联

因果掩码的核心是：当前决策不能依赖未来信息。

这和你们论文中的时序约束高度一致。

在匝道汇入场景中，t 时刻的决策必须只依赖：

t 及之前的历史状态
当前可观测状态

而不能依赖 t+1 及之后的未来主路车行为。

所以非常适合这样说：

因果掩码和我们的历史状态池 + EWMA + LSTM 时序建模逻辑是一致的，核心都是保证当前决策只能依赖历史和当前观测，而不能偷看未来。

5.5 交叉注意力与论文的关联

这部分和你们的双车交互决策最贴近。

你可以把它类比成：

SV 当前状态是 Query
FV 或主路交通流状态是 Key/Value
通过动态匹配，让 SV 当前决策知道应该更关注哪些外部车辆和环境信号

所以可以背这一句：

交叉注意力在我们这个任务中的启发是：汇入车的当前决策，不应该只看自身状态，而应该动态对齐主路车和交通流的关键信息，从而提升交互一致性和安全性。

5.6 Softmax 与 CE-loss 的关联

你整理的这个点也很好。

Transformer 里 Softmax 负责把分数转成概率；

在你们论文里，同样可以类比为动作概率输出，比如：

汇入
跟驰
减速
等待

然后再通过 CE-loss 去优化模型输出分布和真实标签之间的差距。

最适合背的一句是：

Softmax 负责把模型输出转成决策概率分布，CE-loss 负责衡量预测分布和真实分布之间的差异，两者联合构成分类决策优化的核心。

六、结合论文提炼的面试高频重点

6.1 因果掩码多头自注意力

这是很高频、也很容易体现思考的一类题。

你要讲清楚什么

Transformer 解码器为什么要因果掩码？

因为当前时刻不能看未来信息。

论文里怎么对应

你们的历史状态池 + EWMA + LSTM，本质上也是一种时序因果约束。

最适合背的表达

在匝道汇入决策里，当前时刻的决策不能依赖未来主路车行为，这一点和 Transformer 解码器中的因果掩码思想是一致的。因果掩码保证生成过程的时序正确性，而我们的历史状态建模保证决策过程的因果一致性。

6.2 交叉注意力机制

你要讲清楚什么

交叉注意力为什么有价值？

因为它能让当前生成内容和输入语义保持对齐。

论文里怎么对应

可以类比为：

SV 当前决策状态作为 Q
FV / 主路车状态作为 K/V
动态分配关注权重，帮助意图对齐和博弈一致性

最适合背的表达

交叉注意力对我们最大的启发，是汇入车的决策应该动态关注主路车的状态变化，尤其在主路车加速、减速或保持强势时，模型应自动提高这些状态的权重，从而让交互决策更加一致和安全。

6.3 长时依赖建模

这部分是面试一定会问的核心。

你要能清晰对比：

LSTM

门控缓解梯度消失
适合连续历史融合
串行计算
长序列效率有限

TCN

扩张卷积
并行计算
大感受野
更适合高效建模长时依赖

Transformer

自注意力全局建模
长距离关联能力强
复杂度高，通常是 (O(n^2))
对算力和数据规模要求更高

所以最适合背的一句是：

LSTM 适合近期交互历史融合，TCN 适合高效建模长时依赖，Transformer 适合全局关系建模，但计算代价更高；在我们的任务里，TCN 比 Transformer 更符合实时性和工程落地需求。

你们论文确实强调了 Modern-TCN 对长时依赖建模的价值，而且实验里也验证了模型在 SFDA、TO、SO、CE-loss 等指标上优于多种基线。

6.4 Softmax 与输出层设计

这部分不一定最难，但非常基础。

你要讲清楚：

Softmax：输出概率分布
CE-loss：优化预测分布与真实分布差异
温度系数：可调节分布"尖锐程度"
工程上还要注意数值稳定性

最适合背的一句是：

Softmax 负责把 logits 转成动作概率，CE-loss 负责优化预测概率和真实标注之间的差异，这种组合是分类决策任务里最常见也最稳定的输出设计。

6.5 多头注意力机制

你要讲清楚什么

为什么多头比单头强？

因为它能从多个子空间同时看关系。

论文里怎么对应

不同头可以对应不同交互维度：

距离
速度差
加速度趋势
意图
激进性
不同策略层级

最适合背的表达

多头注意力的优势，在于不同头可以分别关注不同交互维度，这一点和我们在双车交互决策中需要同时关注位置、速度、激进性和策略层级是高度一致的。

七、论文强相关必背八股文

这部分就是给你后面直接背的。

7.1 时序模型区别

RNN/LSTM 是顺序处理序列，天然有时序感，但并行性弱；Transformer 通过自注意力并行建模全局依赖，但需要位置编码补充顺序信息；我们采用 LSTM + Modern-TCN，是因为 LSTM 更适合近期交互历史融合，TCN 更适合高效建模长时依赖。

7.2 长时依赖建模

传统 RNN 容易梯度消失，LSTM 虽然通过门控缓解了这个问题，但长序列效率仍有限；Transformer 能全局建模，但计算成本较高；我们通过滑动时间窗 + Modern-TCN 高效建模长时依赖，同时保留 LSTM 对近期交互细节的融合能力。

7.3 建模方式选择

双车交互决策既要看短期动作，也要看长期意图和环境演化。LSTM 擅长融合短期交互细节，TCN 擅长建模更长时间尺度依赖；再结合认知层级博弈和潜变量更新，我们的模型比纯数据驱动方法更符合驾驶行为机制，也更具可解释性。

7.4 注意力机制与交互建模

多头注意力的启发在于，不同注意力头可以从不同角度建模交互关系；对应到我们的研究里，可以类比为不同认知层级、不同策略维度、不同状态变量之间的并行交互建模。

7.5 因果掩码的重要性

因果掩码保证当前决策不能依赖未来信息，这和我们的历史状态池 + EWMA + LSTM 的时序约束是一致的，本质上都是为了保证决策过程的因果正确性。

7.6 Softmax 与 CE-loss

Softmax 负责把模型输出转成决策概率，CE-loss 负责衡量预测分布与真实分布之间的差异，这一组合保证了分类决策训练的稳定性和可优化性。

八、必须真正理解的内容

8.1 因果掩码为什么重要

不能只背"防止偷看未来"。

你要真正理解：

如果没有因果掩码，模型在训练时会利用未来信息，得到不符合真实部署条件的结果。

在自动驾驶决策里，这种错误更严重，因为会破坏行为因果性和可解释性。

8.2 交叉注意力为什么适合交互建模

不能只背"Q 查 K/V"。

你要真正理解：

交叉注意力本质上是一种动态对齐机制，它让一个主体当前的决策，能根据另一个主体的状态自适应分配关注权重。

这就是为什么它非常适合类比双车博弈。

8.3 为什么你们没有直接选 Transformer

这题很关键，不能回避。

你要讲清楚三个层面：

任务结构

你们当前问题里，短期连续交互和长时依赖是并存的，LSTM + TCN 的分工已经比较贴合。

数据规模

Transformer 往往更吃数据，而你们的数据来自真实无人机轨迹，规模相对有限。

工程资源

车载部署和实时性要求高，TCN 通常比标准 Transformer 更容易做到高效落地。

最适合背的一句是：

我们没有直接采用纯 Transformer，不是因为它不好，而是因为在当前数据规模、任务结构和车载实时性约束下，LSTM + Modern-TCN 的分工更匹配我们的场景。

8.4 残差连接、层归一化和前馈网络的角色

你不能把这三者混成"辅助模块"。

你要清楚：

残差连接：保证深层信息保留与梯度回传
层归一化：稳定分布、加速训练
前馈网络：做非线性特征加工

九、视频知识融入论文各模块的表达逻辑

你可以把整套逻辑整理成这条主线：

状态表示 → 时序建模 → 双车交互 → 潜变量更新 → 决策输出 → 可解释性分析

更具体一点：

输入嵌入层 → 轨迹特征向量化、潜变量编码
位置编码 → 时间顺序建模、滑动时间窗、EWMA
多头注意力 → 双车交互、多维关系建模、认知层级博弈映射
因果掩码 → 历史状态池的时序因果性
交叉注意力 → 主路车与汇入车的意图对齐
残差连接 + 层归一化 → 混合深度网络训练稳定性
Softmax + CE-loss → 决策概率输出与损失优化
SHAP → 注意力权重和输入特征的可解释分析

这一条链非常适合你答辩或者技术面时讲。

十、研究生岗和工程岗两种表达方式

10.1 更像研究生的表达

Transformer 对我们最大的启发，不是直接替换现有结构，而是提供了全局关系建模和显式顺序注入的思路。比如多头注意力启发我们从多个维度理解 SV 和 FV 的交互，因果掩码启发我们强调决策的时序因果性，交叉注意力启发我们动态对齐汇入车与主路车意图，而残差连接和层归一化则启发我们优化混合深度网络的训练稳定性。

10.2 更像工程岗的表达

从工程实现看，Transformer 的模块化和并行计算思想很有价值，但是否直接采用还要看任务和资源。在我们的任务里，LSTM + Modern-TCN 更符合真实轨迹数据规模、长时依赖结构和车载实时性要求。Transformer 更多作为一种设计启发，帮助我们优化状态表示、交互建模、输出概率设计和训练稳定性。

十一、模型工程师岗位能力点

11.1 深度学习基础能力

能够理解 Transformer、LSTM、TCN 的结构差异、原理和适用边界。

11.2 时序建模能力

能够根据任务特点选择顺序建模、卷积建模或注意力建模，并说明原因。

11.3 模型架构设计能力

能够把输入编码、交互建模、时序更新、输出决策和可解释性模块串成完整系统。

11.4 损失函数与优化能力

能够解释 Softmax + CE-loss 的作用，理解数值稳定性、正则化和训练优化问题。

11.5 可解释性能力

能够把注意力权重可视化思想和 SHAP 分析结合起来，解释模型为什么这样决策。

11.6 工程落地能力

能够从复杂度、推理延迟、车载部署等角度解释为什么选 TCN 而不是纯 Transformer。

十二、三类 1 分钟面试回答

12.1 通用回答

Transformer 是基于自注意力机制的序列建模模型，核心包括输入嵌入层、编码器、解码器和输出层。输入层通过词嵌入和位置编码形成输入表示；编码器通过多头注意力、残差连接、层归一化和前馈网络提取全局语义；解码器通过因果掩码和交叉注意力逐步生成输出。它最大的特点是并行性强、全局依赖建模能力强。

12.2 结合论文回答

Transformer 对我们论文最大的启发，主要体现在注意力、位置编码、因果掩码和输出概率设计这几个方面。多头注意力启发我们从多个维度理解双车交互，位置编码启发我们显式建模轨迹时序，因果掩码提醒我们保证当前决策不能依赖未来信息，交叉注意力则启发我们动态对齐汇入车与主路车意图。虽然我们当前没有直接采用纯 Transformer，但这些思想都被吸收进了我们的时序建模和交互设计逻辑中。

12.3 工程落地回答

在工程上，我们没有直接采用纯 Transformer，而是选择了更适合当前任务和资源约束的 LSTM + Modern-TCN。原因是 Transformer 虽然全局建模能力强，但计算复杂度高、对数据规模和算力要求更高；而 TCN 在长时依赖建模和并行效率上更符合车载实时性要求。Transformer 更多作为一种设计启发，帮助我们优化状态表示、交互建模、输出概率设计和可解释性分析。

十三、最后给你的最小背诵清单

13.1 今天必须记住的 5 个点

第一，Transformer 的核心是自注意力，而不是循环。
第二，Transformer 并行建模全局依赖，但必须靠位置编码补充顺序信息。
第三，多头注意力的本质是从多个表示子空间同时建模不同类型的关系。
第四，因果掩码保证当前决策不能依赖未来信息，交叉注意力保证当前决策和输入语义保持对齐。
第五，Transformer 对我们论文最大的价值是提供建模启发，而不是直接替代现有 LSTM + TCN 结构。

13.2 今天必须会说的 5 句话

Transformer 不靠循环，而是靠自注意力并行建模序列关系。
位置编码的作用，是把顺序信息显式注入并行模型。
多头注意力让模型能从多个角度同时理解交互关系。
因果掩码保证时序正确性，交叉注意力保证交互一致性。
我们没有直接使用纯 Transformer，不是因为它不好，而是因为当前任务结构和工程约束下，LSTM + TCN 更匹配。

13.3 今天必须准备的 3 个追问

为什么 Transformer 一定需要位置编码？
交叉注意力如何类比双车交互和认知层级博弈？
如果未来数据和算力更充足，你会如何把 Transformer 融入现有模型？

如果你愿意，我下一步可以把 RNN、LSTM、Transformer 这三份内容合并成一份 "时序模型总复习文档"，更适合你最后统一背诵。