Transformer王者归来！无需修改任何模块，时序预测全面领先

最近，来自清华大学和蚂蚁集团的研究人员重新审视 Transformer 结构在时序分析中的应用，提出一个全新的反转视角------无需修改任何模块，即可实现 Transformer 在时序预测任务上的全面领先！

近年来，Transformer 在自然语言处理以及计算机视觉任务中取得了不断突破，成为深度学习领域的基础模型。

受此启发，众多 Transformer 模型变体在时间序列领域中被提出。

然而，最近越来越多的研究发现，使用简单的基于线性层搭建的预测模型，就能取得比各类魔改 Transformer 更好的效果。

最近，针对有关 Transformer 在时序预测领域有效性的质疑，清华大学软件学院机器学习实验室和蚂蚁集团学者合作发布了一篇时间序列预测工作，在 Reddit 等论坛上引发热烈讨论。

其中，作者提出的 iTransformer，考虑多维时间序列的数据特性，未修改任何 Transformer 模块，而是打破常规模型结构，在复杂时序预测任务中取得了全面领先，试图解决 Transformer 建模时序数据的痛点。

论文地址：arxiv.org/abs/2310.06...

代码实现：github.com/thuml/Time-...

在 iTransformer 的加持下，Transformer 完成了在时序预测任务上的全面反超。

问题背景

现实世界的时序数据往往是多维的，除了时间维之外，还包括变量维度。

每个变量可以代表不同的观测物理量，例如气象预报中使用的多个气象指标（风速，温度，湿度，气压等），也可以代表不同的观测主体，例如发电厂不同设备的每小时发电量等。

一般而言，不同的变量具有完全不同的物理含义，即使语义相同，其测量单位也可能完全不同。

以往基于 Transformer 的预测模型通常先将同一时刻下的多个变量嵌入到高维特征表示（Temporal Token），使用前馈网络（Feed-forward Network）编码每个时刻的特征，并使用注意力模块（Attention）学习不同时刻之间的相互关联。

然而，这种方式可能会存在如下问题：

设计思路

不同于自然语言中的每个词（Token）具有较强的独立语义信息，在同为序列的时序数据上，现有 Transformer 视角下看到的每个「词」（Temporal Token）往往缺乏语义性，并且面临时间戳非对齐与感受野过小等问题。

也就是说，传统 Transformer 的在时间序列上的建模能力被极大程度地弱化了。

为此，作者提出了一种全新的倒置（Inverted）视角。

如下图，通过倒置 Transformer 原本的模块，iTransformer 先将同一变量的整条序列映射成高维特征表示（Variate Token），得到的特征向量以变量为描述的主体，独立地刻画了其反映的历史过程。

此后，注意力模块可天然地建模变量之间的相关性（Mulitivariate Correlation），前馈网络则在时间维上逐层编码历史观测的特征，并且将学到的特征映射为未来的预测结果。

相比之下，以往没有在时序数据上深入探究的层归一化（LayerNorm），也将在消除变量之间分布差异上发挥至关重要的作用。

iTransformer

整体结构

不同于以往 Transformer 预测模型使用的较为复杂的编码器 - 解码器结构，iTransformer 仅包含编码器，包括嵌入层（Embedding），投影层（Projector）和个可堆叠的 Transformer 模块（TrmBlock）。

建模变量的特征表示

对于一个时间长度为、变量数为的多维时间序列，文章使用表示同一时刻的所有变量，以及表示同一变量的整条历史观测序列。

考虑到比具有更强的语义以及相对一致的测量单位，不同于以往对进行特征嵌入的方式，该方法使用嵌入层对每个独立地进行特征映射，获得个变量的特征表示，其中蕴含了变量在过去时间内的时序变化。

该特征表示将在各层 Transformer 模块中，首先通过自注意力机制进行变量之间的信息交互，使用层归一化统一不同变量的特征分布，以及在前馈网络中进行全连接式的特征编码。最终通过投影层映射为预测结果。

基于上述流程，整个模型的实现方式非常简单，计算过程可表示为:

其中即为每个变量对应的预测结果，嵌入层和投影层均基于多层感知机（MLP）实现。

值得注意的是，因为时间点之间的顺序已经隐含在神经元的排列顺序中，模型不需要引入 Transformer 中的位置编码（Position Embedding）。

模块分析

调转了 Transformer 模块处理时序数据的维度后，这篇工作重新审视了各模块在 iTransformer 中的职责。

**1. 层归一化：**层归一化的提出最初是为了提高深度网络的训练的稳定性与收敛性。

在以往 Transformer 中，该模块将同一时刻的的多个变量进行归一化，使每个变量杂糅无法区分。一旦收集到的数据没有按时间对齐，该操作还将引入非因果或延迟过程之间的交互噪声。

而在倒置版本中（公式如上），层归一化应用于每个变量的特征表示（Variate Token），让所有变量的特征通道都处于相对统一的分布下。

这种归一化的思想在处理时间序列非平稳问题时已经被广泛证明是有效的，只是在 iTransformer 中可以自然而然的通过层归一化实现。

此外，由于所有变量的特征表示都被归一化到正态分布，由变量取值范围不同造成的差异可以减弱。

相反，在此前的结构中，所有时间戳的特征表示（Temporal Token）将被统一标准化，导致模型实际看到的是过平滑的时间序列。

**2. 前馈网络：**Transformer 利用前馈网络编码词向量。

此前模型中形成「词」向量的是同一时间采集的多个变量，他们的生成时间可能并不一致，并且反映一个时间步的「词」很难提供足够的语义。

在倒置版本中，形成「词」向量的是同一变量的整条序列，基于多层感知机的万能表示定理，其具备足够大的模型容量来提取在历史观测和未来预测中共享的时间特征，并使用特征外推为预测结果。

另一个使用前馈网络建模时间维的依据来自最近的研究，研究发现线性层擅长学习任何时间序列都具备的时间特征。

对此，作者提出了一种合理的解释：线性层的神经元可以学习到如何提取任意时间序列的内在属性，如幅值，周期性，甚至频率谱（傅立叶变换实质是在原始序列上的全连接映射）。

因此相较以往 Transformer 使用注意力机制建模时序依赖的做法，使用前馈网络更有可能完成在未见过的序列上的泛化。

**3. 自注意力：**自注意力模块在该模型中用于建模不同变量的相关性，这种相关性在有物理知识驱动的复杂预测场景中（例如气象预报）是极其重要的。

作者发现自注意力图（Attention Map）的每个位置满足如下公式：

其中对应任意两个变量的 Query 和 Key 向量，作者认为整个注意力图可以在一定程度上揭示变量的相关性，并且在后续基于注意力图的加权操作中，高度相关的变量将在与其 Value 向量的交互中获得更大的权重，因此这种设计对多维时序数据建模更为自然和可解释。

综上所述，在 iTransformer 中，层归一化，前馈网络以及自注意力模块考虑了多维时序数据本身的特点，三者系统性互相配合，适应不同维度的建模需求，起到 1+1+1 > 3 的效果。

实验分析

作者在六大多维时序预测基准上进行了广泛的实验，同时在支付宝交易平台的线上服务负载预测任务场景的数据（Market）中进行了预测。

实验部分对比了 10 种不同的预测模型，包含领域代表性 Transformer 模型：PatchTST（2023）、Crossformer（2023）、FEDformer（2022）、Stationary（2022）、Autoformer（2021）、Informer（2021）；线性预测模型：TiDE（2023）、DLinear（2023）；TCN 系模型：TimesNet（2023）、SCINet（2022）。

此外，文章分析了模块倒置给众多 Transformer 变体带来的增益，包括通用的效果提升，泛化到未知变量以及更加充分地利用历史观测等。

时序预测

如开篇雷达图所示，iTransformer 在六大测试基准中均达到了 SOTA，并在 Market 数据的 28/30 个场景取得最优效果（详见论文附录）。

在长时预测以及多维时间预测这一充满挑战的场景中，iTransformer 全面地超过了近几年的预测模型。

iTransformer 框架的通用性

在取得最佳效果的同时，作者在 Reformer、Informer、Flowformer、Flashformer 等 Transformer 变体模型上进行了倒置前后的对比实验，证明了倒置是更加符合时序数据特点的结构框架。

1. 提升预测效果

通过引入所提出的框架，这些模型在预测效果上均取得了大幅度的提升，证明了 iTransformer 核心思想的通用性，以及受益于高效注意力研究进展的可行性。

2. 泛化到未知变量

通过倒置，模型在推理时可以输入不同于训练时的变量数，文中将其与一种泛化策略------通道独立（Channel Independence）进行了对比，结果表明该框架在仅使用 20% 的变量时依然能够尽可能减少泛化误差。

3. 使用更长历史观测

以往 Transformer 系模型的预测效果不一定随着历史观测的变长而提升，作者发现使用该框架后，模型在历史观测增加的情况下展现出了惊人的预测误差减小趋势，在一定程度上验证了模块倒置的合理性。

模型分析

1. 模型消融实验

作者进行了消融实验验证 iTransformer 模块排布的合理性。

结果表明在变量维使用自注意力，在时间维上使用线性层的建模方式在绝大部分数据集上都取得了最优效果。

2. 特征表示分析

为了验证前馈网络能够更好地提取序列特征的观点，作者基于 CKA（Centered Kernel Alignment）相似度进行特征表示分析。CKA 相似度越低，代表模型底层 - 顶层之间的特征差异越大。

值得注意的是，此前研究表明，时序预测作为一种细粒度特征学习任务，往往偏好更高的 CKA 相似度。

作者对倒置前后的模型分别计算底层 - 顶层 CKA，得到了如下的结果，印证了 iTransformer 学习到了更好的序列特征，从而达到了更好的预测效果。

3. 变量相关性分析

如上图所示，作用在变量维的注意力机制在学习到的注意力图中展现出更加强的可解释性。通过对 Solar-Energy 数据集的样例进行了可视化，有如下观察：

在浅层注意模块，学习到的注意力图与历史序列的变量相关性更加相似。
当深层注意模块，学习到的注意力图与待预测序列的变量相关性更加相似。

这说明注意力模块学到了更加可解释的变量相关性，并且在前馈网络中进行了对历史观测的时序特征编码，并能够逐渐解码为待预测序列。

总结

作者受多维时间序列的本身的数据特性启发，反思了现有 Transformer 在建模时序数据的问题，提出了一个通用的时序预测框架 iTransformer。

iTransformer 框架创新地引入倒置的视角观察时间序列，使得 Transformer 模块各司其职，针对性完成时序数据两个维度的建模难题，展现出优秀的性能和通用性。

面对 Transformer 在时序预测领域是否有效的质疑，作者的这一发现可能启发后续相关研究，使 Transformer 重新回到时间序列预测的主流位置，为时序数据领域的基础模型研究提供新的思路。

参考资料：

arxiv.org/abs/2310.06...