TDT Loss Takes It All论文阅读

基本信息

解决的问题

核心问题

如何将 "目标之间的时间依赖性"（Temporal Dependencies among Targets, TDT）整合到

"非自回归"（Non-Autoregressive, NAR）时间序列预测模型中，从而在保持高效率 的同时提高预测的有效性。

论文指出了现有方法在效率和有效性之间的权衡问题。

自回归（Autoregressive, AR）方法的局限性

AR 方法（如 LSTM、GRU、DeepAR 等）通过递归地、一步一步地进行预测，能够对 "目标序列之间的时间依赖性（TDT）" 进行建模，从而提高建模准确性（有效性）。
但是，这种递归结构会导致预测推理效率低下 （速度慢），并且在长期预测中容易出现误差积累和传播，从而降低预测质量。

非自回归（Non-Autoregressive, NAR）方法的局限性

NAR 方法（如 DLinear、PatchTST 等）可以直接一步到位地输出多步预测结果，极大地提高了预测效率 。
然而，NAR 方法通常**忽略了预测目标序列之间的时间依赖性（TDT），**虽然一些方法尝试通过位置编码或时间戳隐式地捕获时间顺序，但对于 TDT 的全面探索和显式学习仍然不足。

因此，论文的动机在于寻求一种结合两者优势的解决方案：

目标： 结合 AR 和 NAR 的优势，实现更有效且更高效的时间序列预测。

关键： 对预测序列中目标之间的时间依赖性（TDT）进行建模和利用。

为解决这个问题，论文提出了 TDT Loss (Temporal Dependencies among Targets Loss) 这种优化目标。这是一个无需参数、即插即用的解决方案，旨在引导非自回归模型动态地关注目标值预测和 TDT 学习，从而在保持 NAR 效率的同时，提升其预测性能。

提出的方法

Temporal Dependencies among Targets (TDT)

Importance of TDT

时间序列具有时间顺序的属性，每个时间步的观测值都会受到前一个时间步观测值的影响。

模型捕捉TDT的能力也可以反映其预测目标的准确性，模型对相邻时间步之间的 递增或递减关系 以及具体 递增或递减值的预测不准确，本质上是目标值预测不准确的表现，反之，当模型达到较好的目标预测性能时，它在捕获TDT方面也表现出上级性能。

Representation of TDT

为了让非自回归模型能够学习 TDT，论文首先提供了一个具体且直观的 TDT 表示方法，即一阶差分法（First-order Differencing）

TDT 序列的定义： TDT 序列是预测序列中相邻时间步之间的差值。

其中是历史序列的最后一个观测值。

TDT 的双重粒度： 这种表示方法能够捕获 TDT 的两种粒度信息
- 细粒度 TDT： 的值量化了相邻时间步之间的具体增量或减量。
- 粗粒度 TDT ： 的符号指示了相邻时间步之间是递增还是递减的关系。
选择原因： 论文选择一阶差分（）而非高阶差分，是基于时间序列普遍存在的临近性 （proximity）原则，即相邻时间步具有最强的依赖关系 。这保证了模型能够捕获核心的、易于学习的依赖信息，同时避免了高阶差分可能带来的计算复杂性增加和过度约束问题。

TDT Loss: Guiding Non-Autoregressive Models to Learn TDT

NAR基模型存在两个主要限制：第一，基础模型的结构设计缺乏TDT的显式建模 。第二，基础模型中常用的优化目标未能优化TDT的学习。

为应对上述挑战，本文提出TDT Loss：

目标预测损失 ()

常用的预测损失，衡量预测值与真实值之间的差异。

（其中是 MSE 或 MAE 等距离度量。）

TDT 值预测损失 ()

衡量模型拟合细粒度 TDT（即具体的增量或减量值）的性能。
衡量预测 TDT 值 与真实 TDT 值 之间的差异。

（其中是基于预测目标值计算出的一阶差分序列。）

自适应权重 (Adaptive Weight )

用于动态地平衡和这两个损失分量的重要性。
它衡量模型学习粗粒度 TDT（即递增/递减关系）的能力。
定义：代表预测的 TDT 值与真实值之间符号不一致的比例。

（其中是符号函数，是指示函数。）
动态平衡机制： 。
- 值大： 表明模型在预测递增/递减关系方面表现不佳（粗粒度 TDT 学习不足），此时（目标预测损失）的权重较大，促使模型先专注于准确预测目标值。
- 值小： 表明模型预测符号的能力较好，随着模型预测能力的提高，逐渐减小，（TDT 学习损失）的权重相应增大，从而引导模型将注意力转移到学习和预测细粒度 TDT（具体的增量/减量值）上，实现对时间序列的更全面理解。