【论文阅读】基于深度学习的时序预测——FEDformer

系列文章链接
论文一：2020 Informer：长时序数据预测
 论文二：2021 Autoformer：长序列数据预测
 论文三：2022 FEDformer：长序列数据预测
 论文四：2022 Non-Stationary Transformers：非平稳性时序预测
 论文五：2022 Pyraformer：基于金字塔图结构的时序预测
 论文六：2023 Crossformer：多变量时序预测
 论文七：2023 LSFT-Linear：质疑transformer能力的线性预测模型

论文地址：https://arxiv.org/abs/2201.12740

github地址：https://github.com/MAZiqing/FEDformer

参考解读：【ICML 2022】时间序列预测------FEDformer (Frequency Enhanced Decomposed Transformer)

快速傅立叶变换：快速傅立叶变换

本文是阿里达摩院的一篇文章，也是针对长序列预测的，文章背景有以下几点：

从前人的研究就可以看出，大部分研究都在考虑如何降低模型的计算复杂度，因为transformer的二次计算会导致过高的计算复杂度；
之前的研究都没有关注到时序数据的全局信息，但其实这是很重要的一点（Autoformer开始考虑时间序列分解的季节性&趋势分布序列）；

整体架构感觉和Autoformer有点类似，但是细节层面上的创新点主要体现在以下几个方面：

频域时间序列表征（Compact Representation in Frequency Domain）：采用傅立叶变换将时序数据转换到频域是比较常见的做法，这样能够更好地提取时序数据中的长期规律性特征；但是如果保留所有的频率分量会有很多噪声信息，因为很多高频分量都是噪声引起的，但是也不能仅保留低频分量，因为部分高频分量能够体现时序数据的分布趋势；对于时间序列 X = [ x 1 , . . . , x d ] X=[x_1,...,x_d] X=[x1,...,xd]，采用FFT将序列转换成频域表示 A = [ a 1 , . . . , a m ] ∈ R m ∗ d A=[a_1,...,a_m]\in \mathbb{R}^{m*d} A=[a1,...,am]∈Rm∗d，虽然所有的频域表征能够充分表示数据信息，但是会存在很多冗余信息，所以问题提出了一种随机频域信息选择的方法，在每个频域表示的 d d d维数据中随机选择 s s s维作为代表（ s < d s<d s<d），文中提到一个理论说明验证了这种随机选择后的表征信息量接近于原始表征，因此可以通过这种方式来简化计算。
如上图所示，先将时序数据 x x x通过多层感知机进行线性表征转换得到 q = x ∗ w q=x*w q=x∗w，然后采用傅立叶变换将数据转换成 Q Q Q，再进行随机采样得到 Q ~ \widetilde{Q} Q ，然后采用一个随机初始化的矩阵 R R R转换得到 Y ^ \hat{Y} Y^，在转换回时域前进行padding，最后进行逆变换从频域转换回时域；

在注意力机制运算中，仅计算随机选择后的注意力分布，能够简化计算；
基于小波变换的频域增强模块：采用小波变换对序列进行分解，得到高频张量表示 U d ( L ) Ud(L) Ud(L)、低频张量 U s ( L ) Us(L) Us(L)和原始低频张量 X ( L + 1 ) X(L+1) X(L+1)，然后基于三个分解数据进行重构，得到新的处理后的数据，细节不展开；

本文两个创新点的思路都是进行分解，然后进行数据重构。