在 $上一篇$ 中，我们提到 RPE 提出后出现了分裂式的发展趋势，而按时间来讲，对 RPE 的初次改进出自 19 年的论文： Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context ，即超长上下文的 Transformer 。

这这篇论文其实并不是专门对 RPE 的改进，而是为了解决 Transformer 本身的结构问题：

上下文窗口分割让长文本序列无法实现真正的全局注意力，如何实现跨窗口的注意力？

而其对 RPE 的改进可以说是一个"配套方案"，因此，本篇主要展开 Transformer-XL 的主干逻辑，它可以说是现代 AI 记忆系统的最初形态。

1. Transformer 的上下文窗口问题

在我们之前介绍 Transformer时，我们提到了位置编码，提到了因果掩码，但并没有对数据本身展开太多。

这里我们先补充一些 Transformer 对文本数据处理细节，展开 Transformer 的上下文窗口逻辑。

1.1 长短不一的文本如何统一输入？

我们知道，注意力本身就是是矩阵运算，假设一个 batch 中有三句话：

文本序列	Tokenize 后	Token 数量
"I love AI"	$"I", "love", "AI"$	3
"Transformer is powerful"	$"Transformer", "is", "powerful"$	3
"Hi"	$"Hi"$	1

显然，这种不规则长度，根本无法直接组成矩阵。

因此，Transformer 会使用经典方法：Padding（填充），来把所有序列补齐到同一个长度。

例如补到当前 batch 的最长长度：

原始序列	Padding 后
$I, love, AI$	$I, love, AI$
$Transformer, is, powerful$	$Transformer, is, powerful$
$Hi$	$Hi, PAD, PAD$

这里的 <PAD> 就是填充符 ： 它没有任何语义，仅仅用于对齐矩阵，来满足模型输入要求。

1.2 Attention 如何处理填充符？

这里很容易产生一个问题：

既然填充符也进入了序列，那模型会不会真的去关注这些"伪 token"？

答案是会：如果不做额外处理，Attention 会把填充符成正常 token 一样参与计算。

这显然是无意义的。因此，Transformer 引入 Attention Mask，也就是注意力掩码，它和我们之前提到的解码器阶段的因果掩码不同。它的作用就是：

在填充的同时生成一组掩码，告诉模型输入的哪些位置是填充符，不用计算。

就像这样：

\ $\[Hi, PAD, PAD$ \rightarrow $1,0,0$ \]

显然，1 表示有效 token，0 表示 PAD.

随后，在 Attention 内部计算完 $QK^T$ 得到注意力分数后，模型会根据掩码把 PAD 位置对应的分数变成 $-\infty$ ，这样在进行 Softmax 之时：

\ $e\^{-\\infty}=0 \\$

这样，PAD 的注意力权重就会归零，不污染真正的注意力信息。

但是，这只是解决了逻辑问题，这里还有一个问题：计算量问题。

1.3 Transformer 如果处理长文本序列？

在有了 PAD 后，从理论上来说： Transformer 可以处理无限长的序列，只要把该 batch 中的其他序列都填充至最长长度就好了。

但显然，这只是理论。

原因在于注意力计算中每一个 token 都要计算和所有 token 的注意力分数,其复杂度为： $O(n\^2)$ 因此，计算量会随着序列长度增加而暴涨，得到结论：Transformer 不可能无限扩展上下文。

所以，大多数 Transformer 都会设定一个固定长度上下文窗口 ，例如：512、1024、2048 等等，这就是现在的AI模型记忆的最初形态。

当序列长度超过这个窗口长度时，Transformer 就会进行切段（Segment）。

例如，一个最大上下文窗口长度为 $512$ 的 Transformer，如果输入了一篇长度为 1500 tokens 的长文章，模型通常会将其切分为以下三段：

Segment A: $1 \~ 512$ tokens
Segment B: $513 \~ 1024$ tokens
Segment C: $1025 \~ 1500$ tokens

之后，这三个 Segment 会只在自己的序列范围内计算注意力，从而解决长序列带来的计算量问题。

但这也同时带来了新的问题：

Segment A 中的 token，无法看到 Segment B 和 Segment C 中的内容。

因为它们不在一个上下文窗口里，这就是"看到结尾，忘了开头"的原因。

这便是 Transformer-XL 的核心改进点，同时，作者提出了一种改进后的 RPE，下面就来详细展开。

2.Transformer-XL

现在，我们已经理解了原始 Transformer 的核心问题：

上下文窗口是固定的，不同 Segment 之间完全隔离。

而 Transformer-XL 的核心思想其实非常直观：

既然当前窗口看不到历史内容，那就把历史窗口缓存下来。

下面来分点展开其详细逻辑：

2.1 记忆缓存 Memory

在展开这部分前，我们要先强调一点设计：

同一个序列的 Segment A、B、C 不会出现在同一个 batch 内，而是按顺序出现在前后不同 batch。

现在我们来展开 Memory 的内容，你就会明白这么设计的原因：

如图所示，我们知道序列数据进入 Transformer block 后会进行注意力计算、融合等处理，得到编码信息，进行下一步堆叠或其他处理：

\ $Y = \\text{TransformerLayer}(X) \\$

而现在，我们新增了一个缓存窗口，我们会这这一批次的编码信息存入缓存窗口，而下一批次的输出后，就会把下一个批次的输出再存入其中。

值得一提的是，缓存窗口不一定要大于等于上下文窗口。

如果设置缓存窗口为 256，而上下文窗口是 512 ，那么只会切分编码信息的最后 256 部分进入缓存窗口。

这一步，我们是把现在的存下来，其作用自然就是在下一步使用，来实现"记忆功能"。

2.2 Memory 如何参与下一轮 Attention？

现在，Memory 已经建立好了。接下来真正关键的问题来了：

历史编码信息到底是如何参与下一轮计算的？

在这里你会发现这种逻辑非常类似于 RNN ，因此，我们在这里也称 Memory 为上一轮的隐藏状态 $h^{n-1}$ ，而其传递逻辑是这样的：

这段是递归传递的核心，我们来详细展开：先回到 Attention 的核心公式：

\ $\\text{Attention}(Q,K,V)=softmax\\left(\\frac{QK\^T}{\\sqrt d}\\right)V \\$

我们之前说过：

Query（$Q$）：表示"当前需要什么"
Key（$K$）：表示"当前可以提供什么"
Value（$V$）：表示"真正携带的信息"

因此，在当前批次中，我们首先要使用自身信息 $h$ 来生成需求 ，即 $Q$:

\ $Q=hW_Q \\$

而为了实现记忆，我们就要从当前和缓存中确认供给和真正信息 ，即$K$，$V$，因此，XL 的处理是现将当前批次信息和缓存进行拼接：

\ $\\widetilde h=\[h\^{n-1};h$ \]

注意，这是序列长度维度 的拼接，所以不会破坏的 Q/K/V 投影计算。

展开一下，对于：

\ $h \\in \\mathbb{R}\^{L \\times d} \\$

其中：

$L$ ：token 数（序列长度）
$d$ ：embedding 维度

如果当前 segment：

\ $h\\in \\mathbb{R}\^{L_c\\times d} \\$

而历史 memory：

\ $h\^{n-1}\\in \\mathbb{R}\^{L_m\\times d} \\$

拼接后的结构是这样的：

\ $\\widetilde h \\in \\mathbb{R}\^{(L_m+L_c)\\times d} \\$

相当于：

text 复制代码

memory token1
memory token2
...
current token1
current token2
...

就像把两段句子接起来。

所以后面的 KV 投影计算是完全合法的：

\ $K = \\widetilde h W_K \\quad K \\in \\mathbb{R}\^{(L_m+L_c)\\times d_k} \\$

\ $V = \\widetilde h W_V \\quad V \\in \\mathbb{R}\^{(L_m+L_c)\\times d_v} \\$

这样，在后续的归一化融合部分里，当前 token 就可以同时注意当前 segment 和历史 memory，实现跨 segment 的注意力。

2.3 Segment-Level Recurrence 段级递归

到这里，你会发现：Transformer-XL 已经开始出现一种"循环结构"了。

因为融合了上轮 memory 的当前 segment 的输出，会成为下一轮的 memory，继续和下一个 segment 融合，在各个block 内相继进行：

\ $h\^{n-1} \\rightarrow h\^{n} \\rightarrow h\^{n+1} \\$

这种机制就被称为：Segment-Level Recurrence（段级递归） 。

这里的"递归"并不是 RNN 那种 token-by-token 的时间递归，而是在 Segment 层级上的递归。

这种递归保留了 Transformer 的并行计算优势，因为 segment 内部仍然是并行 Attention，只有 segment 之间是递归的。

2.4 Stop Gradient 停止梯度

前面我们已经把正向传播的框架建立完成，但一个新的问题就出现了：

在这种设计里反向传播会让梯度会无限跨 segment 传播。

而这会导致反向传播链无限增长，训练极度缓慢，出现类似 RNN 的长距离依赖问题。

因此，Transformer-XL 的应对措施是：Stop Gradient，停止梯度。

含义是：

Memory 可以参与前向传播，但不会参与反向传播。

即历史 memory 只作为"只读缓存"，当前 segment 才参与训练更新。

当然，这也意味着： 历史 memory 不会被后续 segment 反向修正。

这便催生了后来的研究方向。

3.Transformer-XL 里的位置编码问题

前面我们用 Memory 和段级递归解决了跨段信息传递的问题，但这同样催生了一个新问题：

如何进行跨窗口的位置编码？

举个简单例子，假设模型上下文窗口长度为 4，一段长文本被切成了两个 segment：

	Segment 1	Segment 2
Position 1	A	E
Position 2	B	F
Position 3	C	G
Position 4	D	H

引入 Memory 后，Segment 2 中的 token 可以看到 Segment 1 的编码信息。这时模型会面对这样一个问题：

位置 4 到底是指 D（第一个 segment 的末尾），还是 H（第二个 segment 的末尾）？

显然，模型无法区分。

因为这时的位置编码 $p$ 只依赖在 segment 内部的绝对位置 ，不依赖在原始文本中的实际位置 。

当两个 segment 的位置编码范围完全相同时，模型就出现了"位置混淆"，这就是绝对编码在段级递归场景下的根本缺陷。

因此，Transformer-XL 在 RPE 的基础上进行了改进：跨窗口的 PRE 。

我们在下一篇再详细展开。

深度学习进阶（二十）Transformer-XL