本文研究时间序列基础模型(TSFMs)的概率预测校准问题。TSFMs已在零样本/少样本预测中取得较好精度,但实际应用不只需要点预测,还需要可信的不确定性估计,例如医疗、异常检测和决策场景中,预测分布是否"说到做到"很关键。
现有评估常用CRPS、WQL、MSIS,但论文指出这些指标混合了校准性与锐度,可能把预测更准或区间更窄误判为"更校准"。作者因此系统比较5个TSFM与ARIMA、N-BEATS,核心动机是回答:TSFMs是否真正校准?预测头和长程自回归会如何影响校准?

另外,我整理了时序科研工具资料包:写作/阅读/编码/文献/实验/绘图,全流程直接照搬,感兴趣的dd,希望能帮到你!
二、核心方法


- 实现要点 :
-
比较模型:Chronos-Bolt、TimesFM、Moirai 2.0、TiRex、YingLong;基线为ARIMA、N-BEATS。
-
数据集:Reviews、Shopping(M5)、Glucose、Heart-Rate、Crime、Patents。
-
预测头实验:替换并训练Gaussian、Student's t、混合分布、Quantile heads。
-
长程预测:比较branching与trajectory自回归,并考察不同forecast horizon。
-
三、实验验证与效果

-
主实验:TSFMs在6个真实数据集上通常比ARIMA和N-BEATS有更低PCE,且点预测MASE也具竞争力。
-
深入分析 :
-
WQL可能与MASE高度相关,不能单独代表校准。
-
Gaussian预测头明显更不足自信,PCE更高;Quantile、Student's t、混合分布差异较小。
-
长程自回归中,更大的horizon和trajectory方法校准更好;AR方法整体更易过度自信。
-
-
结论价值:论文认为TSFMs相比传统基线更校准,且短程预测中没有系统性过度或不足自信;该研究可指导TSFM在高风险场景中的不确定性使用。


四、小编总结
这篇论文的重点不是证明TSFM预测更准,而是检查它们给出的概率是否可信。
结果显示,主流时间序列基础模型整体校准较好,明显优于ARIMA和N-BEATS;但预测头选择和长程自回归策略会影响校准,尤其Gaussian头和短horizon自回归需要谨慎使用。