基于深度学习技术的时间序列预测方法

现有的时间序列预测方法大致可以分为两类。第一类是经典的时间序列模型，如Box等人（2015年）、Ray（1990年）、Seeger等人（2017年）和Seeger、Salinas和Flunkert（2016年）所描述的模型，它们为时间序列预测提供了可靠的基础。第二类是基于深度学习技术的方法，主要采用RNN及其变体来开发编码器-解码器预测范式（Hochreiter和Schmidhuber，1997年；Li等人，2018年；Yu等人，2017年）。

PaddleTS简介

PaddleTS是基于飞桨深度学习框架PaddlePaddle开发的时序模型库。它提供了丰富的时序分析模型，包括预测、表征、异常检测和分类模型，适用于多种时序数据的分析和应用。

1. `paddlets.models.forecasting` - 时序预测模型模块

功能

提供多种用于时序预测的模型。
支持单变量和多变量时序预测。
常用模型包括

DeepAR

Informer

LSTNet(Long Short-term Time-series Network)

MLP(Multilayer Perceptron)

NBEATS

NHiTS

RNN

SCINet(Sample Convolution Interaction Network)

TCN(Temporal Convolution Net)

TFT(Temporal Fusion Transformer)

Transformer 等。

当然，请参考以下各个时序模型的论文链接：

1. DeepAR (Deep Autoregressive Networks)

论文链接 : DeepAR: Probabilistic Forecasting with Autoregressive Recurrent Networks 当涉及到时间序列预测时，DeepAR的目标是对未来的时间序列值进行预测，这是建立在其过去观测数据和已知的协变量基础上的。在这个过程中，DeepAR使用了一种称为自回归递归神经网络的模型架构来实现预测。这个模型被设计成能够从过去的数据中学习，并利用这些学习来预测未来的数据。

具体地说，DeepAR的模型将整个时间序列分为两个部分：条件范围和预测范围。在训练过程中，这两个范围都位于过去，以确保所有时间点的观测值都是已知的。但是在预测时，只有条件范围内的数据是已知的，而预测范围内的数据需要通过模型来预测。

DeepAR使用的模型是基于自回归原理的，意味着每个时间步的预测依赖于前一个时间步的预测值，并且是递归的，即网络在每个时间步使用前一步的输出作为下一步的输入。这种模型结构利用了长短期记忆（LSTM）单元，这些单元有助于捕捉长期的依赖关系，从而提高了模型的预测性能。

关于预测的具体操作，DeepAR使用了一种称为祖先采样的技术来获得模型的样本。这意味着DeepAR首先通过计算模型的初始状态来获得第一个时间步的预测值，然后逐步生成未来时间步的预测值。这些样本可以用来计算未来时间范围内各种感兴趣的量，比如分析其分布的分位数等。

2. Informer

论文链接 : Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer模型采用了编码器-解码器架构，并针对长序列时间序列预测问题进行了优化。为了提高预测能力，Informer模型引入了高效的注意力机制。

标准的注意力机制（Vaswani等人，2017年）基于三元组输入（查询、键和值）进行定义，执行缩放点积运算：[ A(Q,K,V) = \text{Softmax}(\frac{QK^T}{\sqrt{d_k}}) V ] 其中，Q、K和V分别是维度为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( L Q × d k ) ( L_Q \times d_k ) </math>(LQ×dk)、 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( L K × d k ) ( L_K \times d_k ) </math>(LK×dk)和 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( L V × d v ) ( L_V \times d_v ) </math>(LV×dv) 的矩阵， <math xmlns="http://www.w3.org/1998/Math/MathML"> ( d k ) ( d_k ) </math>(dk) 是输入维度。为进一步讨论注意力机制，Informer设 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( q i ) ( q_i ) </math>(qi)、 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( k i ) ( k_i ) </math>(ki) 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( v i ) ( v_i ) </math>(vi) 分别为 Q、K 和 V 的第 i 行。

Informer发现，标准的注意力机制在提高预测能力时存在一些缺点。例如，它需要进行 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( O ( L Q L K ) ) ( O(L_Q L_K) ) </math>(O(LQLK)) 的点积运算和 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( O ( L K L Q ) ) ( O(L_K L_Q) ) </math>(O(LKLQ)) 的内存使用，这在处理长序列时效率较低。此外，Informer还发现，注意力概率分布存在潜在的稀疏性。

为了克服这些缺点，Informer提出了一个称为ProbSparse的注意力机制。在这个机制中，每个键只关注前 u 个最不重要的查询。通过这种方式，Informer只需要为每个查询-键对计算 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( O ( ln ⁡ L Q ) ) ( O(\ln L_Q) ) </math>(O(lnLQ)) 的点积，并且每层的内存使用保持为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( O ( L K ln ⁡ L Q ) ) ( O(L_K \ln L_Q) ) </math>(O(LKlnLQ))。

为了高效地获取查询稀疏度测量，Informer提出了一种经验近似方法。在长尾分布下，Informer只需随机采样 U = L_K \ln L_Q 个点积对来计算 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( M ( q i , K ) ) ( M(q_i, K) ) </math>(M(qi,K))，即填充其他对为零。然后，Informer从中选择稀疏的 Top-u。在实践中，查询和键的输入长度通常在自注意力计算中相等，即 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( L Q = L K = L ) ( L_Q = L_K = L ) </math>(LQ=LK=L)，因此ProbSparse自注意力的总时间复杂度和空间复杂度为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( O ( L ln ⁡ L ) ) ( O(L \ln L) ) </math>(O(LlnL))。

编码器被设计用于提取长序列输入的稳健长程依赖关系。在输入表示之后，第 t 个序列输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( X t ) ( X_t ) </math>(Xt) 被转换成一个矩阵 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( X t e n ∈ R L x × d model ) ( X_{t_{en}} \in \mathbb{R}^{L_x \times d_{\text{model}}} ) </math>(Xten∈RLx×dmodel)。为了清晰起见，Informer在图3中给出了编码器的草图。

自注意力蒸馏作为ProbSparse自注意力机制的自然结果，编码器的特征图存在冗余的值V组合。Informer使用蒸馏操作来优先考虑具有主导特征的更优组合，并在下一层中生成一个聚焦的自注意力特征图。它通过设置Attention块中的 n-heads 权重矩阵（重叠的红色正方形）来急剧减少输入的时间维度。受到膨胀卷积（Yu、Koltun和Funkhouser，2017年；Gupta和Rush，2017年）的启发，Informer的"蒸馏"过程从第 j 层传递到第 (j+1) 层。

解码器通过一次前向过程生成长序列输出。Informer使用了标准的解码器结构（Vaswani等人，2017年），它由两个相同的multi-head注意力层的堆栈组成。生成性推理被用来减轻长预测中的速度下降。Informer通过以下向量作为解码器的输入：

是目标序列的占位符（设置为 0 ）。在 P r o b S p a r s e 自注意力计算中应用了遮蔽 m u l t i − h e a d 注意力，通过将遮蔽点积设置为 0 来防止每个位置关注后续位置，从而避免了自回归。一个全连接层获得最终输出，其输出大小 是目标序列的占位符（设置为0）。在ProbSparse自注意力计算中应用了遮蔽multi-head注意力，通过将遮蔽点积设置为0来防止每个位置关注后续位置，从而避免了自回归。一个全连接层获得最终输出，其输出大小

基于深度学习技术的时间序列预测方法

PaddleTS简介

1. paddlets.models.forecasting - 时序预测模型模块

功能

1. DeepAR (Deep Autoregressive Networks)

2. Informer

1. `paddlets.models.forecasting` - 时序预测模型模块