TDT Loss Takes It All论文阅读

基本信息

解决的问题

核心问题

如何将 "目标之间的时间依赖性"(Temporal Dependencies among Targets, TDT) 整合到

"非自回归"(Non-Autoregressive, NAR)时间序列预测模型中,从而在保持高效率 的同时提高预测的有效性

论文指出了现有方法在效率有效性之间的权衡问题。

自回归(Autoregressive, AR)方法的局限性

  • AR 方法(如 LSTM、GRU、DeepAR 等)通过递归地、一步一步地进行预测,能够对 "目标序列之间的时间依赖性(TDT)" 进行建模,从而提高建模准确性(有效性) 。
  • 但是,这种递归结构会导致预测推理效率低下 (速度慢),并且在长期预测中容易出现误差积累和传播,从而降低预测质量 。

非自回归(Non-Autoregressive, NAR)方法的局限性

  • NAR 方法(如 DLinear、PatchTST 等)可以直接一步到位地输出多步预测结果,极大地提高了预测效率

  • 然而,NAR 方法通常**忽略了预测目标序列之间的时间依赖性(TDT),**虽然一些方法尝试通过位置编码或时间戳隐式地捕获时间顺序,但对于 TDT 的全面探索和显式学习仍然不足 。

因此,论文的动机在于寻求一种结合两者优势的解决方案:

目标: 结合 AR 和 NAR 的优势,实现更有效且更高效的时间序列预测 。

关键: 对预测序列中 目标之间的时间依赖性(TDT) 进行建模和利用 。

为解决这个问题,论文提出了 TDT Loss (Temporal Dependencies among Targets Loss) 这种优化目标 。这是一个无需参数、即插即用的解决方案,旨在引导非自回归模型动态地关注目标值预测和 TDT 学习,从而在保持 NAR 效率的同时,提升其预测性能 。

提出的方法

Temporal Dependencies among Targets (TDT)

Importance of TDT

时间序列具有时间顺序的属性,每个时间步的观测值都会受到前一个时间步观测值的影响。

模型捕捉TDT的能力也可以反映其预测目标的准确性,模型对相邻时间步之间的 递增或递减关系 以及具体 递增或递减值的预测不准确,本质上是目标值预测不准确的表现,反之,当模型达到较好的目标预测性能时,它在捕获TDT方面也表现出上级性能。

Representation of TDT

为了让非自回归模型能够学习 TDT,论文首先提供了一个具体且直观的 TDT 表示方法,即一阶差分法(First-order Differencing)

  • TDT 序列 的定义: TDT 序列 是预测序列 中相邻时间步之间的差值 。

其中 是历史序列的最后一个观测值。

  • TDT 的双重粒度: 这种表示方法能够捕获 TDT 的两种粒度信息

    • 细粒度 TDT: 量化了相邻时间步之间的具体增量或减量 。

    • 粗粒度 TDT : 符号指示了相邻时间步之间是递增还是递减的关系 。

  • 选择原因: 论文选择一阶差分( )而非高阶差分,是基于时间序列普遍存在的临近性 (proximity)原则,即相邻时间步具有最强的依赖关系 。这保证了模型能够捕获核心 的、易于学习的依赖信息,同时避免了高阶差分可能带来的计算复杂性增加和过度约束问题 。

TDT Loss: Guiding Non-Autoregressive Models to Learn TDT

NAR基模型存在两个主要限制:第一,基础模型的结构设计缺乏TDT的显式建模 。第二,基础模型中常用的优化目标未能优化TDT的学习

为应对上述挑战,本文提出TDT Loss:

目标预测损失 ()

常用的预测损失,衡量预测值 与真实值 之间的差异 。

(其中 是 MSE 或 MAE 等距离度量 。)

TDT 值预测损失 ()

  • 衡量模型拟合细粒度 TDT(即具体的增量或减量值)的性能 。

  • 衡量预测 TDT 值 真实 TDT 值 之间的差异 。

(其中 是基于预测目标值 计算出的一阶差分序列 。)

自适应权重 (Adaptive Weight )

  • 用于动态地平衡 这两个损失分量的重要性 。

  • 它衡量模型学习粗粒度 TDT(即递增/递减关系)的能力 。

  • 定义: 代表预测的 TDT 值 与真实值 之间符号不一致的比例 。

    (其中 是符号函数, 是指示函数 。)

  • 动态平衡机制:

    • 值大: 表明模型在预测递增/递减关系方面表现不佳(粗粒度 TDT 学习不足),此时 (目标预测损失)的权重 较大,促使模型先专注于准确预测目标值 。

    • 值小: 表明模型预测符号的能力较好,随着模型预测能力的提高, 逐渐减小,(TDT 学习损失)的权重 相应增大,从而引导模型将注意力转移到学习和预测细粒度 TDT(具体的增量/减量值)上,实现对时间序列的更全面理解 。

通过这种方式,TDT Loss 使得 NAR 模型能够端到端地学习目标值、粗粒度 TDT 和细粒度 TDT,从而显著提高整体预测性能 。

实验

Experimental Setup

数据集

Base Models

  • 基于 MLP 的模型: DLinear, NLinear

  • **基于 CNN 的模型:**MICN,TimesNet

  • 基于 Transformer 的模型: MICN , TimesNet

Metric

MAE、MSE、

结果分析

Main Results

提高性能的同时,也降低了标准差,表明基础模型的预测在TDT损失下变得更加稳定。

Efficiency Analysis

图 (a): 目标值 ( Y ) 的预测性能(MAE/MSE)。

图 (b): 细粒度 TDT(TDT 值 D)的预测性能。

图 (c): 粗粒度 TDT(TDT 符号)的预测性能。

TDT 预测能力和目标值预测能力之间存在强烈的正向关联,TDT Loss 通过优化 TDT 预测,确实达到了提升最终目标值预测效果的目的。

Ablation Study

一阶差分(相邻时间步的差异)提供了足够且易于模型学习的信息。更高的阶数(如二阶、三阶)并没有带来额外信息,反而可能过度约束模型,导致性能下降。

TDT 主要存在于相邻时间步 之间。较大的时间间隔(更大的 k )可能会忽略中间时间步的有价值信息,并且依赖关系相比相邻时间步更弱。

  • iTransformer +TDT 完整 TDT Loss 方案

  • w/o LD 排除细粒度 TDT 损失 ,只学习 粗粒度 TDT (通过 )。

  • w/o ρ 排除自适应权重 ,只使用 ,且不动态调整权重。

  • α (Adaptive learning weight α): 另一个替代的自适应学习权重。

相关推荐
墨绿色的摆渡人18 小时前
论文笔记(一百零八)Simulation-based pipeline tailors training data for dexterous robots
论文阅读
森诺Alyson20 小时前
前沿技术借鉴研讨-2025.12.9(胎儿面部异常检测/超声标准平面检测/宫内生长受限)
论文阅读·人工智能·经验分享·深度学习·论文笔记
wzx_Eleven1 天前
【论文阅读】多密钥低通信轮次的联邦学习安全聚合
论文阅读·深度学习·神经网络·安全·同态加密
做cv的小昊1 天前
VLM相关论文阅读:【LoRA】Low-rank Adaptation of Large Language Models
论文阅读·人工智能·深度学习·计算机视觉·语言模型·自然语言处理·transformer
magic_ll1 天前
【论文阅读】【yolo系列】YOLOv10: Real-Time End-to-End Object Detection
论文阅读·yolo·目标检测
北温凉1 天前
【论文阅读】2023_B_Connectivity Analysis in EEG Data
论文阅读
m0_650108242 天前
ZeroMatch:基于预训练大视觉模型的零样本 RGB-D 点云配准
论文阅读·rgb-d点云配准·zeromatch·预训练视觉模型·零样本配准·手工几何特征
檐下翻书1732 天前
互联网企业组织结构图在线设计 扁平化架构模板
论文阅读·人工智能·信息可视化·架构·流程图·论文笔记
EEPI2 天前
【论文阅读】VLA-pilot:Towards Deploying VLA without Fine-Tuning
论文阅读