传统扩散模型 VS Diffusion-TS

1 核心思想

现有研究中，一些基于传统扩散模型数据生成方法多针对特定任务，为有条件生成，灵活性较差。它们大多数采用循环神经网络（RNNs）作为主干网络，采用自回归的方式生成时间序列，每一步的生成都依赖于前一步的输出。由于生成过程是串行的，会造成误差的累积和推理速度的下降。此外，扩散模型的前向加噪过程会破坏时序数据的内在特征（如趋势、季节性等），在去噪重构时难以进行恢复。针对这些问题，Diffusion-TS采用Transformer替换了RNNs，加入可解释性组件捕捉数据中的趋势和季节性特征，将传统扩散模型预测噪声的目标改为预测原始数据，提高了可解释性。

2 前向和反向过程

Diffusion-TS的前向过程和传统扩散模型一致，而在反向扩散的每一步，它会将当前噪声数据输入编码器 - 解码器网络：编码器捕捉含噪序列的全局信息后，解码器通过专用模块从中分解出趋势、季节性与误差三个独立成分，并对各成分进行针对性建模。这些分解后的特征对真实时间序列的结构规律进行了专家知识提炼，它们会直接指导去噪网络生成干净序列的估计值，再基于和推导上一时间步的序列。

3 模型架构

3.1 总体流程

Diffusion-TS模型是一个基于编码器-解码器架构的扩散模型，其设计目标是在生成高质量多元时间序列的同时，提供清晰的可解释性。整个流程始于编码器对含噪输入序列的处理。编码器通过其内部的多层自注意力机制和前馈网络，将整个序列编码为一个富含全局信息的上下文向量，该向量捕获了序列的长期依赖关系和整体结构，为后续的解码过程提供指导。

随后，解码器开始工作。它接收三个关键输入：编码器输出的全局上下文向量、原始噪声序列以及当前扩散步。在进入第一个解码器块之前，会经过预处理，通过位置编码注入位置信息，并与一个由扩散步 t的嵌入向量变换而来的缩放因子进行逐元素相乘。这一关键的条件化操作动态地调制了输入特征的尺度，相当于告知网络当前所处的噪声水平，使其能自适应地调整去噪策略------在早期扩散步专注于粗粒度结构重建，在后期则细化细节。预处理后的"条件化隐藏状态"作为第一个解码器块的输入。每个解码器块内部都依次包含自注意力层、交叉注意力层和前馈网络。自注意力层用于捕捉序列内部的依赖关系；交叉注意力层则负责将编码器提供的全局上下文与当前状态融合，确保去噪过程兼顾整体与局部；前馈网络则进行非线性特征变换。每个子层的输出都与其输入进行残差连接，以防止梯度消失或爆炸，确保深层网络的稳定训练。

经过上述处理得到的精炼隐藏状态，会被复制为两个副本，分别输入两个并行的、可解释的合成层。一个副本被送入趋势合成层，该层通过一个低阶多项式回归器来拟合平滑的、缓慢变化的趋势成分。另一个副本被送入季节性合成层，该层首先执行和的逐元素相减操作，以去除趋势，得到围绕均值Mean波动的残差信号；随后，该信号通过傅里叶合成层进行处理，通过选取振幅最大的K个频率分量来重构出主要的周期性季节性成分。最终，从去趋势后的序列中再减去季节性成分，所剩余的部分便是无法被趋势和季节性解释的纯粹随机误差R。

前D-1个解码器块都致力于这种局部分解，各自解析出该层次的趋势与季节性模式，并更新隐藏状态传递给下一层。而最后一个解码器块则不再进行显式分解，而是对汇聚了所有前端信息的隐藏状态进行最终的精炼与整合，其输出被直接定义为残差分量，用于捕捉所有前序步骤未能完全建模的细微模式和纯粹随机噪声。

最终，模型通过一个简洁的加法合成最终结果：将前D-1个块提取的所有趋势成分求和、所有季节性成分求和，再与最后一个块产生的残差分量 R相加，生成既高度精确又具备清晰可解释性的时间序列：

3.2 趋势合成层

趋势合成层（Trend Synthesis）是Diffusion-TS框架中的一个关键组件，旨在从时间序列数据中提取平滑的底层趋势成分。其设计基于多项式回归器，通过建模缓慢变化的行为来捕获数据的长期方向性变化。计算趋势分量的公式如下：

其中：

：一个多项式空间矩阵，由向量的幂次构成；

：一个小度数（如 3），用于确保模型专注于低频行为；

：第i个解码器块在扩散步t的输入；

Linear：线性变换；

：第 i 个解码器块输出的平均值，作为偏置项来调整趋势。

整个设计通过张量乘法将输入特征映射到多项式空间，从而生成平滑的趋势曲线。

趋势合成层的工作思路涉及对时间序列的分解和重构。在解码器的多层结构中，每个解码器块都包含一个趋势合成模块，该模块利用多项式基函数来拟合时间索引的归一化表示。向量 c 将时间步长归一化到[0,1]区间，使得模型能够处理不同长度的时间序列，而低阶多项式确保了回归的平滑性，避免捕捉高频噪声。线性变换层将输入特征转换为与多项式空间兼容的表示，然后与矩阵C相乘，相当于用多项式函数组合这些特征。最终，所有解码器块的趋势输出被求和，形成整体的趋势分量。这种设计允许模型在扩散过程中逐步细化趋势，同时与其他组件分离，确保趋势的纯净性和可解释性。

趋势合成层能够有效提取趋势的原因在于其内在的数学属性和架构设计。多项式回归天生适合建模趋势，因为低阶多项式可以近似表示数据的长期平滑变化，而不受短期波动或季节性因素的影响。通过使用归一化时间索引和低阶p，模型强制关注低频成分，从而过滤掉高频噪声。

3.3 傅里叶合成层

季节性与误差合成（Seasonality & Error Synthesis）是Diffusion-TS解码器架构的另一个关键组成部分，旨在从含噪声的输入中分离出周期性模式（季节性）和非周期性成分（误差）。这部分设计通过傅里叶合成层自动识别时间序列中的复杂季节规律，从而增强模型的解释性和生成质量。其核心挑战在于如何从扩散过程添加的噪声中有效恢复时间序列的固有结构，而傅里叶变换提供了一种数学上严谨的解决方案。傅里叶合成层利用傅里叶基函数来分解输入信号，具体公式如下：

首先对季节性成分的表示应用离散傅里叶变换，提取频率域的特征：振幅和相位分别对应第k个频率的幅值和相位角。然后，通过argTopK操作选择振幅最大的前K个频率，模型聚焦于最显著的周期性模式。最终，季节性成分通过逆变换重构回时间域，使用选定的频率基函数组合而成，从而捕捉多周期振荡行为。这种方法不仅避免了简单假设（如固定周期），还能自适应地处理真实世界时间序列中的复杂季节波动。

4 训练目标

传统扩散模型（如DDPM）的训练目标是最小化预测噪声和真实噪声之间的误差，即。然而，本文认为直接预测原始样本能更好地让模型学习时间序列的语义特征（如趋势、季节性）。这种设计的优势在于：（1）让模型直接学习重建干净的时间序列样本；（2）便于结合时间序列的分解特性（趋势、季节性、误差）；（3）增强生成结果的可解释性。

将真实后验分布均值中的替换成，再由前向过程的重参数化公式可得反向过程的采样公式：

考虑到不同时间步噪声数据的差异，时间步较小时，噪声数据和真实数据相差较小，此时去噪的难度较低；而时间步较大时，噪声数据偏离噪声数据较大，去噪难度大。

根据真实后验分布和概率分布的KL散度表达式，可知它正比于，其中。由前面的系数，引入权重系数，得到训练目标：

为了进一步提升时间序列重建的准确性，Diffusion-TS引入了傅里叶基的损失项，形成复合训练目标：

其中，λ1控制时域重建误差的权重，λ2控制频域重建误差的权重，傅里叶变换帮助模型更好地捕捉周期性模式，模型在时域和频域同时约束生成过程，避免可能导致的细节模糊问题。

5 条件生成机制

5.1 传统扩散模型

传统扩散模型在进行无条件生成时，从原始数据中进行采样，这个反向过程的每一步都由定义。而条件生成时，依赖外部条件，希望从后验分布中进行采样。。生成过程是逐步进行的。在已知当前时刻状态和条件的情况下，我们只关心如何生成前一步。因此，需要求出。

贝叶斯定理就成为了连接条件生成与无条件生成模型的桥梁。根据贝叶斯定理，我们可以将这个我们想要的条件概率，分解成我们已经拥有的东西（无条件扩散模型）和一个额外的"指导器"：

在给定xt的条件下，可以看作一个归一化常数。因此，这个关系可以简化为：

对该等式两边求关于的梯度，得：

需要额外训练一个强大的分类器，核心思想是引导生成样本朝着提高分类器置信度的方向移动。

5.2 Diffusion-TS的重建引导

5.2.1 引导公式

原始数据被划分为已知的条件和待生成的。与传统扩散模型不同，Diffusion-TS的创新在于其条件生成方法无需额外训练。它直接利用预训练的无条件模型，并通过一种基于自身重建误差的引导机制来修正模型的初始预测，从而生成符合条件约束的数据，修正公式如下：

其中：

：预训练扩散模型在时间步t对原始数据的估计值，即无条件生成路径的起点；

：通过最小化条件部分的均方误差，强制模型对条件部分的当前估计已知条件保持一致，确保条件一致性；

：无条件扩散模型本身的对数概率项，其梯度方向指向更逼真的数据区域；

：梯度更新的步长，控制引导强度；

：权衡条件一致性与流畅性的超参数。

在每一步去噪采样中，模型首先计算无条件估计，然后根据条件部分的误差和模型先验计算梯度，对估计值进行修正，得到条件化的。最终，基于修正后的计算前一步的噪声样本。该过程在每一步重复多次，以提升控制质量。

在反向扩散过程中，和都要重新生成。类似，也被划分为和。其中对应于已知条件，用它用它来确保条件部分的信息在生成过程中被准确保留。是必须被严格遵循的"事实"。为了确保生成结果的这一部分与真实条件完全一致，需要施加一种硬约束，进行替换操作。具体而言，在得到条件化的估计 x~0后，算法会执行一个关键的替换操作：将中对应已知条件部分的片段，直接替换为根据前向扩散公式添加了相应时间步噪声的已知条件数据：

这一步骤至关重要，它保证了在后续计算 xt−1时，条件部分与当前扩散步 t的噪声水平完全匹配，从而避免了分布偏移。

最终，利用这个经过替换操作、条件一致且分布匹配的最终估计 x~0(final)，通过反向扩散的均值计算公式来采样得到前一步的样本。这种在每一步采样中多次迭代进行"预测-修正-替换"的机制，使得Diffusion-TS能够在不重新训练模型的情况下，精细地控制生成过程，最终输出与已知条件高度一致且整体真实的时间序列。

5.2.2 算法流程

该算法的流程是一个基于重建引导的迭代去噪过程。

它从纯噪声开始，在每一步t中，首先利用预训练模型预测一个初步的干净数据估计。随后，算法计算重建误差L1，旨在确保条件一致性；然后进行第一次采样，使用第3步得到的初始预测，按照标准的扩散模型的逆向过程公式计算理论均值，并加入方差为Σ的噪声，采样得到。

再计算初步预测采样的与其理论均值之间的损失L2，旨在保持生成质量。接着，算法通过梯度上升结合这两个损失来修正初始估计，得到一个优化后的全局估计。然后，使用修正后的、更好的预测来重新计算均值μ，并再次进行采样，得到最终版本的。这一步确保了逆向过程朝着更满足条件且更真实的方向进行。

最后，执行关键的"替换操作"，将采样结果中对应已知条件部分替换为按当前噪声水平加噪后的真实条件数据，以确保分布匹配。此过程循环往复，直至从噪声中生成最终符合条件约束的样本。